Description
Date depot: 28 février 2020
Titre: Sémantisation de corpus scientifiques à large échelle - Application à l’analyse interactive de l’évolution des sciences.
Directeur de thèse:
Bernd AMANN (LIP6)
Directeur de thèse:
Hubert NAACKE (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé:
L’analyse sémantique des connaissances dans des corpus scientifiques se heurte à un manque de représentation sémantique des concepts scientifiques. L’objectif général de cette thèse est de proposer des nouveaux outils pour enrichir les grands corpus scientifiques avec des graphes de connaissances pour permettre une analyse plus fine des domaines scientifiques et de leur évolution. L’approche proposé consiste à combiner des méthodes de fouille de texte avec les technologies (RDF/SPARQL) et les ressources du web sémantique (Wikidata, DBPedia, Yago).
Défis n°1 : enrichissement sémantique des domaines issus de la fouille de texte : A partir des solutions de fouille de texte existantes qui calculent des domaines à partir d’un ensemble de documents, il s’agit d’enrichir les domaines en intégrant des données du web sémantique. En particulier, les domaines peuvent être représentés de manière plus riche qu’un ensemble de termes pondérés.
Défi n°2 : Recherche interactive de motifs d’évolution dans un grand graphe pondéré. Ce défi explore le traitement de requêtes complexes dans les graphes obtenus lors de la résolution du défi n°1. Analyser l’évolution des sciences consiste à rechercher des motifs d’évolution dans un grand graphe où les nœuds sont des domaines scientifiques et les liens sont des canaux d’évolution. Un motif d’évolution diffère d’un motif SPARQL classiques par deux aspects : (1) les motifs d’évolution correspondent en général à des motifs de graphs approximatifs qui prennent en compte des propriétés statistiques de certains sous-graphs (degrés moyens des nœuds, poids moyen des arcs etc.). Certaines opérations nécessitent également certaines opérateurs récursifs (fermeture transitive) qui ne sont pas supportés par le langage SPARQL.
Mots clés: Big data, Knowledge graph, structure de données, optimisation de requêtes parallèles et distribuées.
Doctorant.e: Rahimi Hamed