Projet de recherche doctoral numero :2773

Description

Date depot: 1 janvier 1900
Titre: Méthode hybride structure-image de comparaisons de pages Web pour la préservation des archives digitales
Directeur de thèse: Matthieu CORD (ISIR (EDITE))
Directeur de thèse: Stéphane GANÇARSKI (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Les archives Web, constituées de versions pages Web récupérées par des robots, émergent un peu partout dans le monde, sous la responsabilité de bibliothèques nationales ou d’instituts d’archivage comme l’INA en France. Une fois constituées, de telles archives peuvent être soumises à des opérations de maintenance (changement de format du fichier archive par exemple, compatibilité avec les futurs outils de rendu, …). Ces opérations doivent être contrôlées afin de préserver la qualité de l’archive pour des utilisations ultérieures. L'équipe BD du LIP6 travaille depuis plusieurs années sur les problèmes d’archivage du Web [1], [2]. Notamment, un algorithme de comparaison de version de page Web a été mis au point dans le cadre du dépôt légal du Web de l’INA. Par ailleurs, l’équipe MALIRE est experte dans les méthodes de comparaison d’images avec apprentissage [3,4], ce qui permet donc aussi de comparer des versions de page, en les considérant comme des images et/ou en considérant les images qu’elles contiennent.

Doctorant.e: Law Marc Teva