Description
Date depot: 29 août 2022
Titre: Modélisation de Langage Basée sur les Graphes pour la Désambiguïsation Lexicale : le Cas de la Réattribution de Publications Scientifiques et d’Affiliations
Directeur de thèse:
Laurent ROMARY (Inria-Paris (ED-130))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: Contexte
La perspective de nouvelles architectures d’apprentissage profond offerte par l’Attention (C.f., modèles auto-encoder tel que BERT ou auto-régressifs tel que GPT) a stimulé le domaine de
la compréhension automatique du langage. Si ces architectures offrent des méthodes de modélisation de langage efficaces, quelques limitations subsistent. Les modèles tel que BERT, utilisant une méthode de modélisation de langage masquée et GPT, une modélisation causale, n’exploitent que l’information fournie par une séquence donnée, ainsi que celle de la dimension euclidienne préalablement construite. De plus, les modèles semblables à BERT souffrent d’une faiblesse de compréhension des évènements et des liens sémantiques de cause à effet. le processus d’attention est appliqué à chaque token indépendamment de leur importance dans la phrase : cela implique qu’un token donné, absorbe le sens de ses voisins dans la phrase. Ces limitations donnent lieu à des performances mitigées sur des tâches tel que la désambiguïsation lexicale. En effet, les résultats fournis sur ce genre de tâche dépendent grandement de la qualité de la dimension euclidienne à disposition, de la tokenisation des mots, ainsi que des exemples d’entraînement. Si les plongements de mots contextuels offerts par les Transformers montrent de bons résultats en terme de désambiguïsation, pour la détection de sens communs, les performances de ces derniers décroissent de pair avec la rareté des sens et la longueur/complexité du context [6]. Réussir à fournir une architecture de désambiguïsation lexicale extensible est critique, par exemple pour la gestion de bases de données où les entrées ne sont pas toujours uniformisées.
Objectif
L’objectif principal de la thèse est de mettre en place un système capable de désambiguïsation lexicale extensible, visant à répondre à des besoins d’attribution de publication à des auteurs, ou des
besoins d’attribution et d’uniformisation d’affiliations. Étant donné une collection de documents, le but est de pouvoir générer une liste finie et uniforme d’auteurs et d’affiliations, ainsi que d’être capable de détecter une nouvelle entrée, comme-telle. Ces problèmes peuvent s’apparenter à de la détection de sens, d’homonymie, hypernymie et synonymie avec une attention particulière prêtée aux glissements sémantiques et aux sens rares.
Approches Employées
Des approches et des modèles issus de la théorie des graphes et du traitement automatique du langage (TAL) peuvent être employées. L’intuition étant qu’un espace non-euclidien, tel qu’un graphe permet une modélisation du langage limitant la perte d’information sémantique et, couplé aux récents graph neural networks (GCN) [8], permet de représenter chaque mot comme étant la somme d’informations apportées par son voisinage, contournant ainsi les limites de qualité de phrase en entrée.
Afin de résoudre le problème de détection de sens, des algorithmes empruntés au domaine de la théorie des graphes peuvent être utilsés. L’analyse de la topologie d’un graphe, comme la détections de triangles ou le calcul du coefficient de clustering (courbature) d’un noeud, sont des méthodes déjà utilisées afin de déterminer l’ambiguïté d’un mot dans un vocabulaire donné. La topologie d’un graphe fournit des informations utiles sur son comportement ainsi que sur le comportement des noeuds individuels, et peut même donner un aperçu de l’évolution du graphe au cours du temps et ainsi servir à détecter un glissement sémentic. Cependant,aucune de ces méthodes n’a été couplée aux méthodes modernes de TAL à des fins de désambiguïsation.
Ressources
Les experimentations seront mennées sur la base de données d’archives ouvertes ouvertes d’Hyper Articles en Ligne (HAL) 1. HAL contient plus de 3 015 227 publications aux métadonnées exploitables, dont 1 067 343 de publications dans leur version fulltext. Afin de pouvoir mesurer quantitativement les performances des modèles réalisés, d’autres bases ouvertes tel que celle de Digital Bibliography Library Project (DBLP) 2 —où un travail exhaustif de désambiguïsation manuel a été effectué— pourront être utilisées.
Doctorant.e: Kulumba Francis