Heritrix

Un article de Wikipédia, l'encyclopédie libre.

Heritrix
Dernière version	1.12.0 (le 16 mars 2007)
Environnement	Linux/Windows
Type	Robot d'indexation
Licence	GNU LGPL
Site Web	Heritrix

Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du Web. C'est un logiciel libre, programmé en langage Java. Son interface principale est accessible depuis un navigateur Web, mais un outil en interpréteur de commandes peut aussi être optionnellement utilisé pour lancer l'indexation.

Heritrix a été développé conjointement par Internet Archive et les Bibliothèques Nationales Nordiques en 2003. Sa première sortie officielle a eu lieu en janvier 2004, et il a depuis été continuellement amélioré par les membres d'Internet Archive et par des tiers intéressés.

Sommaire

1 Projets utilisant Heritrix
2 Fichier Arc
- 2.1 Outils pour le traitement de fichiers Arc
3 Outils en ligne de commande
4 Voir aussi

[modifier] Projets utilisant Heritrix

Un nombre important d'organisations et de bibliothèques nationales utilisent Heritrix, parmi lesquels :

[modifier] Fichier Arc

Par défaut, Heritrix stocke les ressources qu'il collecte dans un fichier Arc, format qu'Internet Archive utilise depuis 1996 pour stocker ses archives. Heritrix peut également être configuré pour stocker les fichiers dans un format de répertoire similaire au robot d'indexation Wget, qui nomme le répertoire et le fichier de chaque ressource d'après son URL.

Dans le format Arc, de multiples ressources archivées sont stockées dans un seul fichier, afin d'éviter d'avoir à gérer un grand nombre de petits fichiers. Un fichier consiste en une séquence d'enregistrements d'URL, chacun étant accompagné d'un entête contenant des métadonnées à propos de la manière dont la ressource a été demandée, de l'en-tête HTTP, et du code de la réponse. La taille d'un fichier Arc est comprise entre 100 et 600 mégaoctets.

Exemple :

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76
1 1 InternetArchive
URL IP-address Archive-date Content-type Archive-length

http://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187
HTTP/1.1 200 OK
Date: Thu, 22 Jun 2006 19:01:15 GMT
Server: Apache
Last-Modified: Sat, 10 Jun 2006 22:33:11 GMT
Content-Length: 30
Content-Type: text/html

<html>
Hello World!!!
</html>

[modifier] Outils pour le traitement de fichiers Arc

Heritrix inclut un outil en ligne de commande intitulé arcreader qui permet d'extraire le contenu d'un fichier Arc.

La commande suivante liste toutes les URL et métadonnées stockées dans le fichier Arc de l'exemple précédent :

arcreader IA-2006062.arc

La commande suivante en extrait le fichier hello.html, en prenant en compte le début de l'enregistrement à l'offset 140 :

arcreader -o 140 -f dump IA-2006062.arc

Autres outils :

Arc processing tools
Web ARchive Access (WERA)

[modifier] Outils en ligne de commande

Heritrix est fourni avec plusieurs outils en ligne de commande :

htmlextractor - montre le lien que Heritrix doit extraire pour un URL donné
hoppath.pl - recrée le chemin des liens pour une URL spécifiée depuis une indexation complétée
manifest_bundle.pl - met en paquets toutes les ressources référencées par le fichier manifeste du robot dans un fichier tar incompressé ou compressé
cmdline-jmxclient - permet le contrôle en ligne de commande d'Heritrix
arcreader - extrait du contenu d'un fichier Arc [↑]

[modifier] Voir aussi

[modifier] Articles connexes

[modifier] Références

Michael Stack, IWAW 2005. "Update on Heritrix developpment". (PDF)

Kristinn Sigurdsson, National and University Library of Iceland, IWAW 2005. "Incremental crawling with Heritrix". (PDF)

Gordon Mohr, Internet Archive. IWAW 2004. "Heritrix: an open source Web Archiving Crawler". (PPT)

[modifier] Liens externes

Récupérée de « http://fr.wikipedia.org../../../h/e/r/Heritrix.html »

Catégories : Logiciel libre pour Internet • HTTP

Heritrix

Un article de Wikipédia, l'encyclopédie libre.

Sommaire

[modifier] Projets utilisant Heritrix

[modifier] Fichier Arc

[modifier] Outils pour le traitement de fichiers Arc

[modifier] Outils en ligne de commande

[modifier] Voir aussi

[modifier] Articles connexes

[modifier] Références

[modifier] Liens externes

Views

Navigation

Contribuer

Rechercher

Autres langues