Projet de recherche doctoral numero :3176

Description

Date depot: 1 janvier 1900
Titre: Interrogation des archives du Web
Directrice de thèse: Anne DOUCET (Non relevant)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: La masse des documents stockés sur le Web représente une gigantesque source d’information qu’il est important d’archiver, notamment pour pouvoir ‘suivre’ les évolutions des documents au cours du temps. L’archivage du Web, généralement confié à des organismes tels que l’INA ou la BNF, consiste donc à stocker et gérer les différentes versions de documents Web. Dans le cadre du projet CARTEC (ANR 2007) auquel participent l’équipe BD du LIP6, l’INA et la société Antidot, des travaux permettant de détecter les mises à jour des sites et de déterminer leur impact ont été effectués. Leur objectif est d’optimiser l’archivage du Web, en déterminant les versions à conserver en fonction de l’importance des modifications. Le but final de l’archivage du Web est la consultation des archives. Pour cela il est nécessaire d’avoir un langage d’interrogation temporel qui permette de répondre à des requêtes comprenant une date, un intervalle, ou des requêtes renvoyant une date, comme par exemple : « Quels sont les sites donnant des informations sur l’autonomie des universités avant le 22 janvier 2009 ? » ou « Que disait le blog de Juppé pendant la période où le site du Monde parlait de la réforme LRU ? » ou encore « A quelle date le site de Libération a-t-il commencé à parler du statut des enseignants-chercheurs ? » Actuellement l’interrogation des archives est majoritairement effectuée à l’aide de moteurs de recherche. Ceux-ci permettent de répondre à des requêtes simples (requêtes full-text), mais n’ont pas la puissance des langages de requêtes des bases de données, qui s’appuient sur la structure des documents, et ne prennent pas en compte la notion du temps de manière assez fine pour permettre de répondre à toutes les requêtes. Par ailleurs, comme les archives ne peuvent pas contenir toutes les versions des sites de façon exhaustive, il faut pouvoir préciser la sémantique des requêtes temporelles sur corpus incomplets, et donner la réponse la plus probable, ou la plus proche s’il n’y a pas de résultat exact. L’objectif de cette thèse est de définir un langage d’interrogation des archives Web, qui prenne en compte ces différents critères. Dans un premier temps, il s’agira d’introduire la notion de temps aux requêtes full-text et de définir la sémantique des requêtes sur archives incomplètes. Dans un deuxième temps, on étudiera comment compléter ce langage par une interrogation sur la structure, qui permet de répondre de façon précise à des requêtes complexes. Pour cela, il faut résoudre le problème lié à la nature même des documents HTML : structure pauvre et souvent, sans lien avec le rendu visuel du document. C’est pourquoi nous préférons utiliser une structure plus naturelle, induite par le rendu visuel. Dans le cadre de nos travaux actuels sur l’archivage du Web, nous proposons une approche de segmentation basée sur la représentation en blocs traduisant l’aspect visuel des pages HTML. Les informations qui représentent les modifications d’une version par rapport à une autre, sont structurées en fonction de cette segmentation et stockées en XML. Il s’agit donc d’étudier les différentes approches existantes d’interrogation temporelle de documents XML, et de les adapter au contexte de l’interrogation d’archives du Web.

Doctorant.e: Pehlivan Zeynep