Robot d'indexation
Un article de Wikipédia, l'encyclopédie libre.
Un robot d'indexation (ou araignée ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.
Fonctionnant sur le même principe, certains robots sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des pourriels.
Sommaire |
[modifier] Principes d'indexation
Pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Toutefois, de nombreuses ressources échappent à cette exploration récursive, car seuls des hyperliens créés à la demande, donc introuvables par un robot, permettent d'y accéder. Cet ensemble de ressources inexploré est parfois appelé web profond.
Un fichier d'exclusion (robots.txt
) placé dans la racine d'un site web permet de donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge du serveur Web et d'éviter des ressources sans intérêt. Par contre, certains robots ne se préoccupent pas de ce fichier.
Deux caractéristiques du Web compliquent le travail du robot d'indexation : le grand volume de données et la bande passante. Un très grand nombre de pages sont ajoutées, modifiées et supprimées chaque jour. Si la capacité de stockage d'information, comme la vitesse des processeurs, a augmenté rapidement, la bande passante n'a pas bénéficié de la même progression. Le problème est donc de traiter un volume toujours croissant d'information avec un débit limité. Le robot a donc besoin de donner des priorités à ses téléchargements.
Le comportement d'un robot d'indexation résulte de la combinaison des principes suivants :
- Un principe de sélection qui statue quelle page télécharger.
- Un principe de re-visite qui statue quand vérifier s'il y a des changements aux pages.
- Un principe de politesse qui statue comment éviter les surcharges de pages web.
- Un principe de parallélisation qui statue comment coordonner les robots d'indexations distribués.
[modifier] Robots
[modifier] Robots libres
- GNU Wget est logiciel libre en ligne de commande écrit en C automatisant les transferts vers un client HTTP.
- Heritrix est le robot d'archivage de l'Internet Archive. Il a été écrit en Java.
- HTTrack est un logiciel aspirateur de site internet qui crée des miroirs des sites Web pour une utilisation hors ligne. Il est distribué sous la licence GPL.
- Nutch est un robot de collecte écrit en Java et publié sous Licence Apache. Il peut être utilisé avec le projet Lucene de la fondation Apache.
[modifier] Robots propriétaires
- Googlebot de Google ;
- Scooter de AltaVista ;
- MSNBot de MSN.
- Slurp de Yahoo! ;
- KB Crawl de BEA-Conseil ;
- OmniExplorer_Bot de OmniExplorer
- TwengaBot de Twenga
[modifier] Voir Aussi
[modifier] Articles connexes
[modifier] Liens externes
- (fr) Introduction au référencement naturel - Article sur Web Interdit
- (fr) Encyclopédie des robots (annuaire-info.com) : informations récentes sur plus de 100 robots du web (user-agent, adresse IP, origine,...)
Portail de l'informatique – Accédez aux articles de Wikipédia concernant l’informatique. |