Not logged in : Login
(Sponging disallowed)

About: Web crawler     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : yago:Leader109623038, within Data Space : linkeddata.uriburner.com associated with source document(s)
QRcode icon
http://linkeddata.uriburner.com/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FWeb_crawler

A Web crawler is an Internet bot which systematically browses the World Wide Web, typically for the purpose of Web indexing (web spidering). Web search engines and some other sites use Web crawling or spidering software to update their web content or indices of others sites' web content. Web crawlers can copy all the pages they visit for later processing by a search engine which indexes the downloaded pages so the users can search much more efficiently. Crawlers can validate hyperlinks and HTML code. They can also be used for web scraping (see also data-driven programming).

AttributesValues
type
same as
hypernym
has abstract
  • Robot internetowy (lub też Robot indeksujący) – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej: * badają zawartość witryny, * sprawdzają kod strony, * zbierają dodatkowe informacje o stronie, * monitorują aktualizacje, * tworzą mirrory stron. W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących "Google's fresh crawl" i "Google's deep crawl" lub "Google's main crawl". "Fresh crawl" jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, "deep crawl" głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu. Ruch generowany przez roboty jest jednym z podstawowych wskaźników mówiących o pozycjonowaniu strony.
  • Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En français, depuis 2013, crawler est remplaçable par le mot collecteur. Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information. Dès les années 1990, il a ainsi existé des comparateurs de prix automatiques, puis des comparateurs performance/prix pour les microprocesseurs. Des frameworks tout faits comme Scrapy existent pour écrire de tels robots.
  • Ein Webcrawler (auch Spider, Searchbot oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt. Weitere Anwendungen sind das Sammeln von Web-Feeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, also Computerprogrammen, die weitgehend automatisch sich wiederholenden Aufgaben nachgehen.
  • Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Un crawler è un tipo di bot (programma o script che automatizza delle operazioni). I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice. Un uso estremamente comune dei crawler è nel Web. Sul Web, il crawler si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi). Durante l'analisi di un URL, identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare. Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito. Inoltre i crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file "robots.txt" posto nella root del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo. Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca aggiornati al 21 febbraio 2008:
  • زاحف الشبكة (بالإنجليزية: Web crawler) هو برنامج كمبيوتر يقوم بتصفح الشبكة العالمية بطريقة منهجية وآليه ومنظمة. هناك مصطلحات أخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت ، وعناكب الشبكة ، أو آليات الشبكة . وهذه العملية تسمى الزحف علي الشبكة أو العنكبة. كثير من المواقع، وبخاصة محركات البحث، تستخدم العنكبة كوسيلة لتوفير بيانات حديثة. وزواحف الشبكة تستخدم أساسا لإنشاء نسخ من جميع الصفحات التي يتم زيارتها لكى يفهرسها محرك البحث في وقت لاحق ويحمل الصفحات أثناء عمليات البحث بسرعة. ويمكن أيضا أن تستخدم الزواحف لاتمام مهام الصيانة على موقع علي الشبكة، مثل التحقق من صحة الروابط أو تعليمات لغة تحرير النص الفائق البرمجية. أيضا، يمكن استخدام الزواحف لجمع أنواع محددة من المعلومات من صفحات الشبكة، مثل حصاد عناوين البريد الإلكتروني (عادة لارسال رسائل غير المرغوب فيها). وزاحف الشبكة هو أحد أنواع البوتات، أو وكلاء البرامج. بشكل عام، يبدأ زاحف الشبكة بقائمة من العناوين المرغوب في زيارتها، وتدعى هذه القائمة بالبذور. عندما يزور الزاحف هذه العناوين، فإنه يحدد كافة الارتباطات التشعبية في الصفحة ويضيفها إلى قائمة العناوين المطلوب زيارتها، وتدعى حدود الزحف. وتتم زيارة عناوين حدود الزحف بشكل متكرر وفقا لمجموعة من السياسات. بسبب الحجم الكبير يمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاء الأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها. و عدد العناوين القابلة للزحف والتي تتولد من جانب البرمجيات الخادمة للمواقع على الشبكة جعلت من الصعب تجنب استرجاع محتويات مكرره أثناء الزحف على شبكة الإنترنت. يوجد تركيبات لانهائية من العناوين القائمة على أساس بروتوكول نقل النص الفائق، ولكن في الحقيقة لا يوجد سوى مجموعة صغيرة منها تعيد محتوى فريد. على سبيل المثال، قد يقدم عارض مبسط الصور على الإنترنت ثلاثة خيارات للمستخدمين، على النحو المحدد من خلال معلمات بروتوكول نقل النص الفائق في العنوان. إذا كان هناك أربع طرق لفرز الصور، وثلاثة خيارات لحجم الصورة المصغرة، وطرقتين لتنسيق الملفات، بالإضافة إلى خيار لتعطيل المحتوى القادم من المستخدم، فنفس المجموعة من محتوى يمكن الوصول إليها من خلال 48 عناوين مختلفة، كل منها على الموقع. هذا التوافق الرياضي يخلق مشكلة للزواحف، لأنها يجب أن تفرز من خلال تركيبات لا تنتهي من تغييرات طفيفة نسبيا في لغة البرمجة من أجل استرداد محتوى فريد من نوعه. ويجب أن يختار الزاحف بعناية في كل خطوة الصفحات التي تلي في الزيارة.
  • Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines. De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze één voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden. Spiders dienen zich tijdens hun rondgang te gedragen omdat ze pagina's nu eenmaal sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt.
  • 網路蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种「自動化瀏覽網路」的程式,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。
  • クローラ(Crawler)とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる。 主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。 一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
  • A Web crawler is an Internet bot which systematically browses the World Wide Web, typically for the purpose of Web indexing (web spidering). Web search engines and some other sites use Web crawling or spidering software to update their web content or indices of others sites' web content. Web crawlers can copy all the pages they visit for later processing by a search engine which indexes the downloaded pages so the users can search much more efficiently. Crawlers consume resources on the systems they visit and often visit sites without tacit approval. Issues of schedule, load, and "politeness" come into play when large collections of pages are accessed. Mechanisms exist for public sites not wishing to be crawled to make this known to the crawling agent.For instance, including a robots.txt file can request bots to index only parts of a website, or nothing at all. As the number of pages on the internet is extremely large, even the largest crawlers fall short of making a complete index. For that reason search engines were bad at giving relevant search results in the early years of the World Wide Web, before the year 2000. This is improved greatly by modern search engines, nowadays very good results are given instantly. Crawlers can validate hyperlinks and HTML code. They can also be used for web scraping (see also data-driven programming).
  • Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru от Google, Яндекса и Mail.Ru соответственно. Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.
  • Una araña web (o araña de la web) es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots. Las arañas web comienzan visitando una lista de URLs, identifica los hiperenlaces en dichas páginas y los añade a la lista de URLs a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente. Entre las tareas más comunes de las arañas de la web tenemos: * Crear el índice de una máquina de búsqueda. * Analizar los enlaces de un sitio para buscar links rotos. * Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.
  • Web crawler, em português rastreador web, é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada. Outros termos para Web crawlers são indexadores automáticos, bots, web spiders, Web robot, ou Web scutter. O processo que um Web crawler executa é chamado de Web crawling ou spidering. Muitos sites, em particular os motores de busca, usam crawlers para manter uma base de dados atualizada. Os Web crawlers são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de busca que irá indexar as páginas baixadas para prover buscas mais rápidas. Crawlers também podem ser usados para tarefas de manutenção automatizadas em um Web site, como checar os links ou validar o código HTML. Os crawlers também podem ser usados para obter tipos específicos de informações das páginas da Web, como minerar endereços de email (mais comumente para spam). Um Web crawler é um tipo de robô de Internet ou agente de software. Em geral, ele começa com uma lista de URLs para visitar (também chamado de seeds). À medida que o crawler visita essas URLs, ele identifica todos os links na página e os adiciona na lista de URLs para visitar. Tais URLs são visitadas recursivamente de acordo com um conjunto de regras.
thumbnail
Link from a Wikipage to an external page
Wikipage page ID
Wikipage revision ID
wasDerivedFrom
has a SPARQL endpoint at
mainEntity
label
  • Web crawler
  • Araña web
  • Crawler
  • Rastreador web
  • Robot d'indexation
  • Robot internetowy
  • Spider
  • Web crawler
  • Webcrawler
  • Поисковый робот
  • زاحف الشبكة
  • クローラ
  • 網路蜘蛛
comment
  • زاحف الشبكة (بالإنجليزية: Web crawler) هو برنامج كمبيوتر يقوم بتصفح الشبكة العالمية بطريقة منهجية وآليه ومنظمة. هناك مصطلحات أخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت ، وعناكب الشبكة ، أو آليات الشبكة . وهذه العملية تسمى الزحف علي الشبكة أو العنكبة. بسبب الحجم الكبير يمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاء الأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها.
  • Ein Webcrawler (auch Spider, Searchbot oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt. Weitere Anwendungen sind das Sammeln von Web-Feeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, also Computerprogrammen, die weitgehend automatisch sich wiederholenden Aufgaben nachgehen.
  • Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En français, depuis 2013, crawler est remplaçable par le mot collecteur.
  • Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines.
  • Web crawler, em português rastreador web, é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada. Outros termos para Web crawlers são indexadores automáticos, bots, web spiders, Web robot, ou Web scutter. Um Web crawler é um tipo de robô de Internet ou agente de software. Em geral, ele começa com uma lista de URLs para visitar (também chamado de seeds). À medida que o crawler visita essas URLs, ele identifica todos os links na página e os adiciona na lista de URLs para visitar. Tais URLs são visitadas recursivamente de acordo com um conjunto de regras.
  • 網路蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种「自動化瀏覽網路」的程式,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。
  • Поиско́вый ро́бот («веб-пау́к», краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определи
  • A Web crawler is an Internet bot which systematically browses the World Wide Web, typically for the purpose of Web indexing (web spidering). Web search engines and some other sites use Web crawling or spidering software to update their web content or indices of others sites' web content. Web crawlers can copy all the pages they visit for later processing by a search engine which indexes the downloaded pages so the users can search much more efficiently. Crawlers can validate hyperlinks and HTML code. They can also be used for web scraping (see also data-driven programming).
  • クローラ(Crawler)とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる。 主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。 一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。
  • Robot internetowy (lub też Robot indeksujący) – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej: * badają zawartość witryny, * sprawdzają kod strony, * zbierają dodatkowe informacje o stronie, * monitorują aktualizacje, * tworzą mirrory stron.
  • Una araña web (o araña de la web) es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots. Entre las tareas más comunes de las arañas de la web tenemos:
  • Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Un crawler è un tipo di bot (programma o script che automatizza delle operazioni). I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice. Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca aggiornati al 21 febbraio 2008:
preferred label
  • [DBpedia Spotlight Annotator] Web crawler
topic
Faceted Search & Find service v1.17_git44 as of Nov 17 2019


Alternative Linked Data Documents: PivotViewer | ODE     Content Formats:       RDF       ODATA       Microdata      About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 08.03.3315 as of Nov 29 2019, on Linux (x86_64-generic-linux-glibc25), Single-Server Edition (378 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2019 OpenLink Software