Projet de recherche doctoral numero :4739

Description

Date depot: 1 janvier 1900
Titre: Deep Learning pour l'indexation conceptuelle de texte
Directeur de thèse: Vincent GUIGUE (ISIR (EDITE))
Directeur de thèse: Benjamin PIWOWARSKI (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: {{Description de la thèse}} L’objectif de la thèse est le développement de représentations sémantiques de texte par apprentissage automatique. La compréhension de texte ou de scènes visuelles restent des challenges largement ouverts. Cette compréhension passe par la construction automatique de représentations sémantiques à partir desquelles on puisse réaliser des inférences complexes sur les concepts présents dans les contenus textuels. L’apprentissage de représentations avec le Deep learning constitue aujourd’hui l’état de l’art pour toute une série de traitements sémantiques dans des domaines comme le traitement du langage naturel, la vision, la parole, etc. La thèse s’attaque à un challenge ouvert dans le domaine de la compréhension de données sémantiques qui est l’extraction automatique de relations contre concepts. Autant l’extraction d’entités a bénéficié de progrès importants ces dernières années permettant l’annotation automatique de textes, images ou vidéos par exemple, autant, l’extraction automatique de représentations relationnelles entre concepts, à partir de contenus textuel ou visuels reste un défi ouvert. D’une part la tâche est bien plus complexe que l’annotation d’entités, d’autre part les méthodes d’apprentissage effectives reposent sur l’existence de bases de données étiquetées et l’annotation fine de relations étant bien trop couteuse, il faut changer de paradigme et utiliser des méthodes très faiblement supervisées. {{Contexte scientifique}} L’apprentissage de représentations, popularisé par le « Deep Learning », suscite actuellement un fort interêt pour l’analyse de données textuelles. Plusieurs développements sont particulièrement pertinents pour la thèse. Notons que la plupart sont très récents, certains parmi les plus prometteurs sont à peine ébauchés aujourd’hui. En premier lieu, il nous faut citer les modèles neuronaux d’analyse distributionnelle comme Word2Vec ou Glove qui sont rapidement devenus un standard pour apprendre des représentations sémantiques de mots. Ces représentations sont utilisées pour des traitements et inférences plus complexes sur le texte et sont à la base de nombreux développements liés à l’extraction d’information et l’apprentissage dans les bases de connaissances. Au delà de ces systèmes relativement simples, ont été développés des modèles plus sophistiqués et des paradigmes qui ciblent, à moyen terme, des objectifs bien plus ambitieux comme la construction de systèmes capables de raisonner sur des faits extraits de données ou de traiter des problèmes complexes du type questions-réponses (QR). L’apprentissage de relations a été abordé sous la forme d’apprentissage de triplets (e1, R, e2) à partir de bases de connaissances généralistes comme Freebase. Ces modèles sont également utilisés dans des tâches de QR où questions et relations sont projetés dans des espaces latents communs et où l’apprentissage fonctionne par supervision faible. Une deuxième ligne de travaux plus récents repose sur une approche de classification de relations avec des réseaux de neurones convolutionnels. Leur degré de complexité diffère selon les modèles, mais l’idée sous-jacente est de plonger le texte entre (et autour) des entités dans un espace de représentation, avant de prédire quelle relation peut relier ces deux termes. Aujourd’hui, de nouveaux modèles et algorithmes basés sur les réseaux récurrents permettent de réaliser un ensemble de tâches d’analyse de séquence complexes. En texte, ces modèles sont par exemple employés dans le cadre du paradigme encodage-décodage où une séquence est encodée en un vecteur de taille fixe, puis est décodée en une autre séquence. Ce paradigme est par exemple utilisé en traduction en annotation d’images par des phrases décrivant le contenu des images. Très récemment (2016), les modèles récurrents ont été étendus pour développer des mémoires à long terme interrogeables grâce à des mécanismes d’attention. L’objectif n’est plus de construire un codage d’une séquence dans un vecteur unique, mais d’apprendre des représentations des différents éléments de la séquence. Le mécanisme d’attention (appris lui aussi) ira consulter les représentations pertinentes pour produire des sorties. Ces modèles sont utilisés pour aborder des problèmes du type questions-réponses sur des bases de faits exprimées en langage naturel qui nécessitent d’enchaîner des « raisonnements ». Cette recherche est émergente, les modèles ne traitent actuellement que des tâches très limitées, leur conception et leur entrainement restent des problèmes largement ouverts. {{Démarche}} La difficulté à annoter finement de grands corpus au niveau relationnel est un frein majeur au développement de méthodes d’apprentissage efficaces pour l’extraction de relations. En l’absence de tels corpus, les bases de connaissances sont une source essentielle pour la description des relations entre concepts. Les relations y sont présentes sous la forme de triplets (e1,R

Doctorant.e: Simon Etienne