Projet de recherche doctoral numero :8198

Description

Date depot: 7 septembre 2021
Titre: Raisonnement dans des espaces de représentation vectorielles des phrases
Directeur de thèse: Benoit SAGOT (Inria-Paris (ED-130))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Traitement automatique des langues et de la parole

Resumé: La recherche en traitement automatique des langues (TAL) a beaucoup progressé ces dernières années avec l'arrivée de modèles de langue tels que GPT-3, dotés de nombreux paramètres, et l'arrivée de modèles de traduction multilingues à grande échelle. Cependant, malgré des résultats impressionnants, les approches actuelles reposent toutes sur une hypothèse qui nous semble sous-optimale : le texte est généré mot par mot. Dans cette thèse, nous proposons d'initier un changement de paradigme en nous éloignant d'une approche de génération mot par mot pour passer à un niveau sémantique supérieur, en raisonnant et en générant du texte au niveau de concepts, que nous définissions comme correspondant à des phrases entières. Plus précisément, nous nous appuierons sur un encodeur qui calcule une représentation vectorielle de taille fixe pour une phrase donnée. Chacune de ces phrases, ou concepts, correspond donc à un point dans cet espace latent. Nous nous proposons d'étudier différents problèmes de TAL directement dans cet espace de représentation, comme des fonctions régulières modélisant les relations entre plusieurs concepts. À titre d'exemple, un dialogue correspondrait à une séquence de points, c'est-à-dire de concepts, dans cet espace latent. Le modèle est complété par un décodeur, qui peut générer des phrases à partir de tout point de l'espace. Enfin, nous proposons d'étudier des approches génératives au niveau des concepts qui intègrent un module de mémoire supplémentaire, afin de s'assurer que les entités nommées soient cohérentes tout au long de la génération du texte. Nous proposons également d'intégrer une composante multimodale à l'espace de représentation des phrases afin de pouvoir raisonner directement dans un tel espace.

Doctorant.e: Duquenne Paul-Ambroise