Réf.: 1255

WARC – nouveau format de fichier ISO pour stocker des milliards de données en ligne

2009-10-07

WebUne page aujourd'hui présente sur le Web peut avoir disparu le lendemain. Une nouvelle norme ISO, ISO 28500:2009, Information et documentation – Format de fichier WARC, fera en sorte que, lorsqu’une page est modifiée ou disparaît, les informations abondantes et souvent précieuses placées sur le Web ne se perdent pas.

La norme ISO 28500 définit un format de fichier appelé WARC (Web ARchive), qui propose une convention pour la concaténation de plusieurs objets de données dans un seul fichier long. Le format peut être utilisé pour créer des applications pour la collecte, la gestion, l'accès et l'échange de contenu.

«Pendant longtemps, garder la trace du nombre impressionnant de sites et pages Web a représenté une difficulté majeure pour les conservateurs et archivistes de données numériques et a abouti à la perte d'innombrables données», déclare Clément Oury, membre du groupe de travail qui a élaboré la norme.

«Grâce au format WARC, ISO 28500 porte l'archivage Internet à un niveau supérieur en permettant la gestion, la structuration et le stockage efficaces de milliards de ressources collectées sur le Web et ailleurs. Sa normalisation offre une garantie de durabilité, et contribuera à ce que l'archivage du Web devienne partie intégrante des activités ordinaires des organismes de préservation du patrimoine et d'autres institutions, par exemple en favorisant le développement de nouveaux outils et en assurant l'interopérabilité entre les collections», explique M. Oury.

Le format WARC est une extension du format de fichier ARC, utilisé par l'Internet Archive depuis 1996, et par de nombreux organismes de préservation du patrimoine pour stocker les «Web crawls» – qui sont des extraits de pages Web entières avec leurs liens.

La motivation d'étendre l'ARC est née des débats et expériences de ces organisations au sein de l'International Internet Preservation Consortium (IIPC) – dont la mission principale est d'acquérir, préserver et rendre accessibles les connaissances et informations de l'Internet pour les générations futures. Les membres de l’IIPC constataient qu’il était de plus en plus difficile de stocker et gérer le volume croissant d'informations venant de l'Internet.

Le format WARC diffère du format ARC en ce sens qu'il offre des possibilités nouvelles, notamment l'enregistrement des entêtes de requête HTTP et des métadonnées, l'attribution d'un identifiant pour chaque fichier contenu, la gestion des doublons et des enregistrements migrés, et la segmentation des enregistrements. Les fichiers WARC sont destinés à stocker tout type de contenu numérique, qu'il soit récupéré par HTTP ou par un autre protocole.

«Plusieurs applications sont déjà conformes à WARC, notamment le robot d’indexation Heritrix, les outils WARC pour la gestion et l'échange des données, la Wayback Machine, NutchWAX et autres outils de recherche pour l'accès», ajoute M. Oury.

La norme ISO 28500: 2009, Information et documentation – Format de fichier WARC, a été élaborée par le comité technique ISO/TC 46, Information et documentation, sous-comité SC 4, Interopérabilité technique. Elle est disponible auprès des instituts nationaux membres de l'ISO (voir la liste complète avec les coordonnées). Il est également possible de l’obtenir, au prix 118 francs suisses, directement auprès du Secrétariat central de l'ISO, par l’intermédiaire de l'ISO Store ou en contactant le département Marketing, Communication et Information (voir colonne de droite).


Contact pour les médias

Maria Lazarte

Maria Lazarte
Chargée de communication,
Marketing, Communication et Information
Tél.  + 41 22 749 01 11
Fax  +41 22 733 34 30
E-mail  lazarte@iso.org

Commandes:

Sonia Rosas Friot
Assistante, Service marketing
Marketing, Communication et Information
Tél.  +41 22 749 03 36
Fax  +41 22 749 09 47
E-mail  sales@iso.org
 

Normes associées

Informations associées

 
Vous avez ajouté ce produit dans votre panier
Continuer vos achats  Valider votre panier