Description
Date depot: 1 janvier 1900
Titre: Gestion des Données XML probabilistes
Directeur de thèse:
Talel ABDESSALEM (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Les sources d’incertitude dans les données abondent : mesures bruitées, données résultant de systèmes
automatiques imparfaits (extraction d’information, traitement automatique de la langue, etc.), des données imprécises par essence comme un diagnostic humain, etc. Dans le cadre d’un système autonome,
hétérogène et décentralisé comme celui qui fait l’objet du projet ANR DataRing, l’incertitude provient également de correspondances de schémas imparfaits par nature, de doutes à propos de la présence
supposée d’un fait ou d’un document entier sur un pair donné, ou de redondance et de contradiction
dans l’information présente sur les différents pairs. L’une des manières les plus naturelles de représenter
cette incertitude recourt à des bases de données probabilistes.
L’objectif de cette thèse de doctorat est de trouver des modèles formels pour la représentation et l’interrogation efficace de bases de données probabilistes dans un environnement pair-à-pair, et de construire
les prototypes correspondants.
En raison de la nature hétérogène de l’information partagée dans le DataRing, des modèles semistructurés (c’est-à-dire, XML) devraient être privilégiés, bien que la simplicité de la représentation en
tuples plats du modèle relationnel puisse également être une inspiration. Les modèles probabilistes semistructurés précédemment étudiés peuvent servir de base pour le travail proposé. Des aspects
particulièrement intéressant sont les suivants :
– gestion des diverses formes d’incertitude ;
– routage et évaluation distribuée de requêtes probabilistes à travers d’un réseau en pair-à-pair ;
– corroboration d’informations entre sources ;
– classement des résultats d’une requête et recherche efficace des k meilleurs résultats.
Doctorant.e: Souihli Asma