Description
Date depot: 1 janvier 1900
Titre: Approche probabiliste pour l'intégration de données du web
Directeur de thèse:
Talel ABDESSALEM (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
L'intégration de données est une problématique importante et très étudiée dans le domaine des bases de données. Elle consiste à combiner des données contenues dans des sources différentes en vue d'offrir un accès unique et homogène à ces données. La fusion de bases de données d'entreprise et les entrepôts de données sont des exemples d'applications traditionnelles des techniques d'intégration de données. Dans ce genre d'applications, un travail préliminaire d'intégration sémantique est réalisé afin de permettre au système de connaître avec précision les relations qui existent entre les schémas des différentes sources et la façon avec laquelle les données provenant de ces sources doivent être combinées. Ce travail est assez complexe mais reste réalisable pour des sources dont la structure est fixe et bien connue.
Le Web s'impose aujourd'hui comme source d'information indispensable pour les particuliers, mais aussi pour les entreprises (applications de veilles, d'extraction de connaissances, etc.). Il est caractérisé par la grande hétérogénéité des sources de données qu'il contient, autant au niveau de leurs schémas de données qu'au niveau de leur fiabilité. L'intégration de données dans ce contexte nécessite le développement de solutions automatiques ou semi-automatiques, permettant de combiner des volumes de données importants et de prendre en compte des contextes et des scénarios plus complexes : systèmes pair-à-pair, Web social, dataspaces, base de données scientifiques, etc. Elle nécessite également une prise en compte de l'incertitude qui peut être liée au degré de fiabilité des sources de données, mais aussi à la précision du processus d'intégration.
Dans cette thèse, nous nous intéressons à l'intégration de données du Web, et plus particulièrement les données contenues dans le Web social (wiki, blogs, réseaux sociaux, etc.). Dans ce contexte, la fiabilité des sources (contributeurs) peut être déduite des interactions entre les utilisateurs et, dans certains cas, des relations, notations et autres opinions explicitement exprimées par les utilisateurs.
L'objectif est de développer des solutions automatiques, ou semi-automatiques, pour l'intégration de données qui soient efficaces et qui tiennent compte de la pertinence des données. L'approche que nous envisageons est basée sur des solutions probabilistes où la fiabilité des sources est modélisée sous forme de probabilités associées aux données.
Doctorant.e: Ba Mouhamadou Lamine