Web profond

Un article de Wikipédia, l'encyclopédie libre.

Cet article est une ébauche à compléter concernant Internet, vous pouvez partager vos connaissances en le modifiant.

Le Web profond ou Web invisible (en anglais deep web) est la partie du Web qui n'est pas indexable par les moteurs de recherche généralistes, qui est accessible en ligne.

Il ne doit pas être confondu avec le web noir^[1] qui désigne les parties du web qui sont introuvables et non accessibles en ligne, ni avec le web opaque (partie du web indexable, mais non indexée).

La terminologie web profond est souvent opposée à web surfacique.

Sommaire

1 Robots d'indexations
2 Taille du web-profond
3 Web opaque
4 Web profond : raisons de la non indexation.
- 4.1 Exemples de bases de données appartenant au web-profond
5 Notes & références
- 5.1 Liens externes

[modifier] Robots d'indexations

Les robots d'indexation sont les programmes utilisés par les moteurs de recherche pour parcourir le web. Afin de découvrir de nouvelles pages, ces robots suivent les liens hypertextes.

[modifier] Taille du web-profond

Une étude de juillet 2001 réalisée par l'entreprise BrightPlanet^[2] estime que le Web profond pouvait contenir 500 fois plus de ressources que le Web indexé par les moteurs de recherche. Il s'avère que ces ressources, en plus d'être volumineuses, sont souvent de très bonne qualité.

[modifier] Web opaque

Il faut noter qu'une part très importante du web est théoriquement indexable, mais non indexée de fait par les moteurs. Certains auteurs ^[3] parlent dans ce cas (web non-profond, mais non indexé) de web opaque (opaque web) ou web presque visible (nearly visible web).

Le web profond et le web opaque sont donc deux catégories distinctes. Les deux sont accessibles en ligne aux internautes, les deux ne sont pas indexées par les moteurs, ce qui les sépare c'est que le web opaque pourrait être indexé.

Les algorithmes des moteurs étant proches (par exemple page rank), il s'avère que les zones indexées se recoupent en partie d'un moteur de recherche à l'autre. Les ressources matérielles des robots d'indexation, ne sont pas, malgré des moyens matériels importants, à même de suivre tous les liens théoriquement visibles par eux, que le web (gigantesque) contient.

Une équipe de chercheurs allemands a étudié le comportement des robots d'indexation face à des sites contenant énormément de pages. Ils ont créé un site web composé de 2 147 483 647 pages (2³¹ - 1). Ce site web est un arbre binaire, il est donc très profond (il faut beaucoup de clics pour arriver à certaines pages). Ils ont laissé ce site en ligne, sans rien faire, pendant une année. Les résultats montrent que le nombre de pages indexées pour ce site, dans le meilleur des cas, ne dépasse pas 0,0049%.

Afin de résoudre ce problème de volumétrie de pages à indexer pour un site donné, le moteur Google a introduit en 2005, le protocole sitemap. Ce protocole permet, grâce à la mise à disposition du robot d'un fichier sitemap, de gagner en efficacité pour l'indexation. Ce fichier est mis à la racine du site par l'administrateur du site web.

[modifier] Web profond : raisons de la non indexation.

Les sites contiennent de plus en plus de pages dynamiques: les hyperliens de navigation sont générés à la demande, et diffèrent d'une visite à l'autre.
Il faut parfois remplir convenablement un formulaire de critères de recherche pour pouvoir accéder à une page précise. C'est le cas de sites exploitant sommairement des banques de données.
Certains sites nécessitent une authentification avant d'accéder au contenu réel: c'est le cas des sites avec des archives payantes (journaux en ligne, bases de données de météorologie, etc...) constituant des téraoctets de données.

Or un robot n'est guère capable d'émettre des requêtes pertinentes ; sa visite d'indexation se réduit donc aux seules pages accessibles en cliquant sur des url statiques.

Le web invisible est également constitué des ressources utilisant des formats de données incompréhensibles par les moteurs de recherche. Cela a été longtemps le cas du format pdf. Aujourd'hui tous les grands moteurs (google, Yahoo!, MSN, exalead...) sont capables d'indexer les documents utilisant ce format. En revanche les pages flash ne peuvent toujours pas être interprétées par les robots d'indexation.
L'utilisation du langage Javascript, non compris par les robots, pour lier les pages entre elles constitue souvent un frein à leur indexation.

Certaines pages sont inaccessibles aux robots du fait de la volonté de l'administrateur du site web. Il est possible, à l'aide d'un petit fichier (robots.txt) mis à la racine d'un site web, de bloquer tout ou partie du site aux robots "honnêtes", le site restant accessible aux internautes. Ces pages sont parfois rangées dans une catégorie connexe à celle du web profond : Le web privé (private web).