Description
Date depot: 1 janvier 1900
Titre: Qualité du web de données
Directrice de thèse:
Samira SI-SAID CHERFI (CEDRIC)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
On assiste aujourd'hui à un accroissement de données accessibles sur le Web. Ces données servent de plus en plus de base à des processus de décision dans les entreprises ou dans la recherche scientifique.
Cependant, la fiabilité des informations déduites dépend fondamentalement de la qualité de ces données. Par conséquent, les besoins d'évaluation de la qualité dans le contexte du web de données sont de plus en plus pressants. La recherche de la qualité de l'information a été appliquée avec succès dans les systèmes d'information traditionnels avec un contexte de bases de données relationnelles en ayant un effet positif sur les processus organisationnels qui les utilisent. Se pose donc la question de l'applicabilité de cette approche de la qualité au contexte du Web.
L'évaluation de la qualité nécessite l'identification des types de données qui serviront de base à l'évaluation, l'élaboration de méthodes permettant la mesure de la qualité sur ces données et le développement d'outils logiciels adaptés. Afin qu'un tel travail soit efficace, il est utile que de telles solutions soient intégrées aux processus de publication et d'interrogation des données.
Le but de cette thèse est de proposer une approche complète comprenant une méthode et des outils pour assurer la qualité du web de données. Ceci nécessite tout d'abord :
-* de proposer des définitions et un modèle de la qualité adapté au contexte du web de données. Les données du web sont évolutives, ne reposent pas sur un schéma pré-établi et sont de qualités variées et provenant de sources diverses,
-* une méthode d'évaluation objective qui repose sur des mesures et non des évaluations subjectives. Ces mesures doivent être fondées sur des théories établies et validées par des expérimentations,
-* une méthode d'amélioration de la qualité. Aussi bien l'évaluation que l'amélioration de la qualité devront exploiter les liens entre les données du web,
-* un ensemble d'outils permettant d'une part de démontrer la faisabilité de la solution proposée et d'autre par son implémentation via des outils qui faciliterons son l'application.
La thèse suivra les étapes suivantes :
-* Etablir un état de l'art le plus complet possible sur les techniques et les méthodes d'évaluation de la qualité des données sur le web.
-* Proposer un modèle de la qualité pour le web de données. Ce modèle devra fournir des définition précises de critères de qualité tels que la complétude, la précision ou provenance etc. Les travaux actuels se concentrent sur certains critères mais omettent de considérer le problème de la qualité à différents niveaux de détail (définition/mesure). De plus les travaux sur la qualité ne considèrent pas le problème difficile de l'évaluation global de la qualité qui est souvent un compromis entre différentes dimensions. La complétude par exemple augmente le temps de réponse, la sécurité se heurte au coût de la qualité etc.
-* Implémenter l'approche proposée. Plusieurs outils devront probablement être proposés dont certains qui devront être interopérables avec des solutions existant pour le web de données.
-* Mener une expérimentation pour l'évaluation de l'approche proposée. Les expérimentations devront se faire sur des données réelles.
-# Batini, C., Cappiello, C., Francalanci, C., Maurino, A.: Methodologies for data quality assessment and improvement. ACM Computing Surveys (CSUR) 41(3), 16 (2009)
-# Chen, P., Garcia, W.: Hypothesis generation and data quality assessment through association mining. In: Sun, F., Wang, Y., Lu, J., Zhang, B., Kinsner, W., Zadeh, L.A. (eds.) Proceedings of the 9th IEEE International Conference on Cognitive Informatics, ICCI 2010, July 7-9, 2010, Beijing, China. pp. 659 - 666. IEEE (2010)
-# Furber, C., Hepp, M.: Swiqa-a semantic web information quality assessment framework. In: ECIS. vol. 15, p. 19 (2011)
-# Golbeck, J.: Combining provenance with trust in social networks for semantic web content filtering. In: Moreau, L., Foster, I.T. (eds.) Provenance and Annotation of Data, International Provenance and Annotation Workshop, IPAW 2006, Chicago, IL, USA, May 3-5, 2006, Revised Selected Papers. Lecture Notes in Computer Science, vol. 4145, pp. 101-108. Springer (2006)
-# Hartig, O.: Trustworthiness of data on the web. In: Proceedings of the STI Berlin & CSW PhD Workshop. Citeseer (2008)
-# Hartig, O., Zhao, J.: Using web data provenance for quality assessment. In: Freire, J., Missier, P., Sahoo, S.S. (eds.) Proceedings of the First International Work- shop on the role of Semantic Web in Provenance Management (SWPM 2009), collocated with the 8th International Semantic Web Conference (ISWC-2009), Washington DC, USA, October 25, 2009. CEUR Workshop Proceedings, vol. 526. CEUR-WS.org (2009)
-# Hogan, A., Harth, A., Passant, A., Decker, S., Polleres, A.: Weaving the pedantic web. In: Bizer, C., Heath, T., Berners-Lee, T., Hausenblas, M. (eds.) Proceedings of the WWW2010 Workshop on Linked Data on the Web, LDOW 2010
Doctorant.e: Issa Subhi