Projet de recherche doctoral numero :2786

Description

Date depot: 1 janvier 1900
Titre: Développement d'algorithmes et d'outils pour le support de l'archivage du Web
Directeur de thèse: Stéphane GANÇARSKI (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Le besoin de préserver l'information venant du Web et les moyens de gérer des archives de documents venant du Web sont des problèmes largement étudiés ces dernières années, et la plupart des pays ont initiés des projets de grande ampleur à des fins de préservation du patrimoine numérique mais aussi en vue de constituer des dépôts légaux. [9] fait un survey d'une grande partie des travaux de recherche du domaine. Dans la dernière décennie, avec l'émergence du Web comme source d'information à large échelle, beaucoup de gouvernements (et d'organismes internationaux) ont initiés des projets sur le sujet, principalement au travers des bibliothèques et instituts d'archivage nationaux. Ainsi, le portail du International Internet Preservation Consortium (IIPC) présente les différentes initiatives nationales existantes en vue de constituer une archive numérique [8]. Le projet Internet Archive a développé une infrastructure pour l'archivage de documents du Web et leur archive contient déjà 500 TO en versions de pages Web et 500 autres TO pour les documents associés (images, vidéos, etc.) [6]. Ce projet, initié en 1996, propose un accès public à son archive depuis 2000. Les différentes phases ou tâches concernées par l'archivage sont : • sélection des pages à archiver (définition du périmètre du corpus) • capture régulière du contenu des pages sélectionnées • stockage et indexation des versions de page capturées • recherche d'information et interrogation de l'archive • préservation de l'archive constituée Pour chacune de ces phases, il est nécessaire de définir des stratégies efficaces, des algorithmes et des outils spécifiques capable de passer à l'échelle. Certains travaux se concentrent sur la capture des informations, effectuée régulièrement, voire périodiquement. Les pages sélectionnées sont visités, téléchargées puis stockées. Généralement, cette tâche est effectuée de manière automatique à l'aide de robots (crawlers) capable de visiter un site et capturer toutes les pages, ou simplement celles accessibles par un chemin borné depuis la racine du site. Cependant, afin de limiter l'utilisation des ressources, il est nécessaire de bien calculer à quel moment le robot doit revisiter une page pour éviter de capturer de l'information redondante ou peu nécessaire (peu de différence avec la version précédente). Ce problème est difficile puisque les modifications apportées sur les sites Web ne sont pas connues du côté de l'archive et il faut donc les prévoir en se basant sur les précédentes captures. Plusieurs travaux se sont penchés sur le sujet. [11] présente le système AOLAP (Austrian On-Line Processing Module) utilisant des techniques d'analyse des entrepôts de données, en incorporant dans les métadonnées des éléments provenant du service Whois. D'autres approches [12, 13, 14] se focalisent sur la modélisation et l'estimation de la fréquence des changements pour chaque page Web. Ils proposent des estimateurs de fréquence de changement (basés sur le modèle de Poisson pour la plupart) afin de prévoir le meilleur comportement possible du robot dédié à chaque page. Les travaux menés par le LIP6 dans le domaine de l'archivage du Web couvrent l'ensemble du processus par une approche originale, depuis l'analyse de l'aspect visuel des pages (car c'est celui que voient les utilisateurs, et celui sur lequel est basé la notion de dépôt légal) jusqu'à l'ordonnancement des crawlers, l'indexation des versions de page et l'exploitation de l'archive par des technique de recherche d'information temporelle incomplète [1,2,3,4]. L'un des points clés de cette approche est de définir des mesures, calculées en comparant l'aspect visuel (par segmentation) des versions de page successivement captées. La segmentation, effectuée à l'aide d'une version étendue du logiciel VIPS proposé par Cai et al. [15], consiste a décomposer celle-ci en bloc sémantiques, organisés en une hiérarchie (document VI-XML). Les documents VI-XML sont ensuite passés à VI-Diff, un algorithme original permettant de comparer deux versions successives de page segmentées et de détecter ainsi les différences entre les deux versions. On affecte à chaque bloc une importance relative liée à sa position dans la page et obtenue par apprentissage, ce qui permet de calculer une importance à chaque différence détectée, et ainsi de calculer, par agrégation, l'importance du changement entre deux versions. Cette différence, ainsi que le temps séparant les captures respectives des deux versions comparées, permet d'estimer le comportement dynamique de la page, et de prévoir le meilleur moment pour aller la revisiter, en fonction des limitations de ressources (les pages dont les changements importants sont les plus fréquents seront visitées plus souvent).

Doctorant.e: Sanoja Andres