Robot d'indexation - web crawler : définition

Publié le 3 Octobre 2016

Robot d'indexation - web crawler : définition

Robot d'indexation : définition

Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web.

Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ouPostScript, etc.), afin de permettre à un moteur de recherche de les indexer.

Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels.

En français, depuis 2013, crawler est remplaçable par le mot collecteur1.

Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information. Dès les années 1990, il a ainsi existé des comparateurs de prix automatiques, puis des comparateurs performance/prix pour les microprocesseurs2. Des frameworks tout faits comme Scrapy existent pour écrire de tels robots3.

source : https://fr.wikipedia.org/wiki/Robot_d%27indexation

Robot d'indexation - web crawler : définition

Ookawa-Corp blown by B'Digital, powered by B'Leader, spread by B'Sociable, amplified by B'Press, illustrated by B'360, energized by New3S, hosted by 3DWC.biz

Repost 0
Commenter cet article