Projet de recherche doctoral numero :8467

Description

Date depot: 27 mars 2023
Titre: Algorithms and tools for scalable quality control of knowledge graphs
Directeur de thèse: Pietro MICHIARDI (Eurecom)
Encadrant : Raja APPUSWAMY (Eurecom)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Entity-centric knowledge graphs (KGs) are becoming increasingly popular for gathering entity-related information. KG schemas are semantically rich, with numerous types and predicates used to define entities and their relationships. These KGs contain knowledge that can be exploited by understanding the KG's structure and patterns. However, a huge barrier in realizing the potential of KGs is the quality. Ensuring quality of KG data is a significant challenge due to the processes involved in their creation and updating. Structured data in KGs is typically extracted from multiple sources, including the Web, without human validation. This raises two major concerns. The first issue is factual errors. Incorrect or outdated data from the sources can be transmitted to the KGs, and noise from the automatic extractors can also occur. The second issue is one of inadequacy.Because a graph is rarely complete in practice, the closed world assumption (CWA) does not apply in KGs, which means that it is not possible to conclude that a missing fact is false. Because of these issues, the quantity of incompleteness and errors in KGs can be large, with up to 30% errors reported for data extracted from Web source This thesis will investigate algorithms and tools that can be utilized in the process of continuous curation of KGs.

Résumé dans une autre langue: Les graphes de connaissances centrés sur les entités (KG) sont de plus en plus populaires pour la collecte d'informations liées aux entités. Les schémas KG sont sémantiquement riches, avec de nombreux types et prédicats utilisés pour définir les entités et leurs relations. Ces graphes contiennent des connaissances qui peuvent être exploitées en comprenant la structure et les schémas du graphe. Toutefois, la qualité des KG constitue un obstacle majeur à l'exploitation de leur potentiel. Garantir la qualité des données des KG est un défi de taille en raison des processus impliqués dans leur création et leur mise à jour. Les données structurées des KG sont généralement extraites de sources multiples, y compris du web, sans validation humaine. Cela soulève deux problèmes majeurs. Le premier concerne les erreurs factuelles. Des données incorrectes ou obsolètes provenant des sources peuvent être transmises aux KG, et des bruits provenant des extracteurs automatiques peuvent également se produire. Comme un graphique est rarement complet dans la pratique, l'hypothèse du monde fermé (CWA) ne s'applique pas aux KG, ce qui signifie qu'il n'est pas possible de conclure qu'un fait manquant est faux. En raison de ces problèmes, la quantité d'incomplétude et d'erreurs dans les KG peut être importante, avec jusqu'à 30 % d'erreurs signalées pour les données extraites de sources Web. Cette thèse étudiera les algorithmes et les outils qui peuvent être utilisés dans le processus de curation continue des KG.



Doctorant.e: Dhouib Baya