Description
Date depot: 24 mai 2022
Titre: Inférence de relations causales par apprentissage non-supervisé appliqué au Traitement Automatique du Langage Naturel
Directeur de thèse:
Mohamed NADIF (Centre Borelli (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: Dans le cadre de ce sujet de thèse, nous cherchons à développer un nouveau modèle d'Extraction d'Information (IE; Information Extraction) permettant d'identifier automatiquement, à partir d'un corpus de documents, les éléments de phrase les plus importants et leurs relations causales. Un modèle IE se compose de plusieurs sous-tâches dont la Reconnaissance d'Entités Nommées (NER; Named Entity Recognition) et l'Extraction de Relations (RE; Relation Extraction). La reconnaissance d'entités nommées consiste à déterminer si des mots/groupes de mots correspondent à certaines catégories d'intérêt (e.g. compétences, expériences, emploi). Cette tâche fait généralement appel aux Conditional Random Fields (CRFs), aux modèles basés sur les Réseaux de Neurones Récurrents (RNN; Recurrent Neural Networks) et aux représentations de mots telles que générées par des outils performants et aujourd'hui bien connus de la communauté scientifique comme word2vec, glove et BERT. Avec l'augmentation incessante du nombre de documents non structurés mise à notre disposition, l'identification des relations causales (IE) joue à présent un rôle primordial dans la recherche en Traitement Automatique du Langage Naturel (TALN). La relation de cause à effet, qui fait ici référence à une relation entre deux (groupes de) mots/entités g1 et g2, selon laquelle l'occurrence de g1 entraîne l'occurrence de g2, est essentielle dans de nombreux domaines. Par exemple, la décision de recruter un candidat est basée sur la relation selon laquelle ses compétences conduisent à une amélioration des performances de l'équipe d'accueil et/ou de l'entreprise. L'identification de cette causalité est rendue possible par des méthodes d’analyse multivariées pour la découverte de la causalité et d'analyse de médiation pour la quantification de ces effets.
L'objectif sera donc d'obtenir une approche à la fois robuste et flexible, c'est-à-dire pouvant s'adapter à différents domaines (e.g. ressources humaines, media, biomédical) pour un ensemble de relations causales non-prédéfinies. Nous nous appuierons sur des approches de clustering et de co-clustering développées au sein de l'équipe. Ces approches pourront être étendues afin de croiser plusieurs représentations des données. Il sera ainsi possible d'intégrer des matrices de similarités, par exemple entre les documents et/ou entre les entités nommées, pour une plus grande adaptabilité à diverses domaines.
Doctorant.e: Ferdjaoui Amine