Projet de recherche doctoral numero :8384

Description

Date depot: 22 septembre 2022
Titre: Apprentissage auto-supervisé et par renforcement pour la synthèse textuelle de données tabulaires
Directeur de thèse: Sylvain LAMPRIER (LERIA)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: La très grande disponibilité des données est un fait bien établi dans notre société. Que les données proviennent de textes, de traces d'utilisateurs, de capteurs ou encore de bases de connaissances, l'un des défis communs est de comprendre et d'accéder rapidement aux informations contenues dans ces données pour faciliter la prise de décision. Une des réponses à ce défi consiste à générer des synthèses textuelles des données considérées, le langage naturel présentant de nombreux avantages en termes d'interprétabilité, de compositionnalité, d'accessibilité et de transférabilité. Néanmoins, si la génération de résumés pour données textuelles est un problème pour lequel les solutions commencent à être satisfaisantes, la génération de descriptions textuelles dans un cadre plus général (e.g., conditionnelles à des données numériques ou structurées) constitue toujours un problème particulièrement difficile. Ce problème fait référence à un champ émergent dans le domaine du traitement du langage naturel, appelé Data-to-Text, possédant de très nombreuses applications, notamment dans les domaines scientifiques, du journalisme, de la santé, du marketing, de la finance, etc. Un des premiers exemples d'application fut la publication d'un article du Los Angeles Time, généré automatiquement à partir de données numériques sismiques. D'autres exemples ont concerné le suivi des flux numériques (bourse, billetterie, suivi de la population, etc.), l'assistance aux diagnostics médicaux ou encore le soutien d'enfants en difficulté d'élocution (par exemple, pour les aider à mieux retranscrire leurs journées). Une agence qui analyse des rapports d'entreprises pour simuler des stress tests écologiques sur des milliers de produits financiers, nous a rapporté que l'information utile de ces rapports se situait à 60% dans des tableaux, 10% dans des graphiques et seulement 30% dans le texte des rapports. Cet exemple illustre l'importance du problème, que les avancées récentes en apprentissage profond et génération de la langue (e.g., via des réseaux type BERT, GPT, etc.), rendent possible à envisager. Le projet ANR ACDC dont le démarrage est prévu pour début Avril 2022, et dont l’équipe MLIA est coordinatrice, s'appuie sur ces avancées pour la génération de synthèses textuelles à partir de données tabulaires (bien que les propositions pourraient ultérieurement être étendues à d'autres types de données structurées telles des séries numériques, figures ou graphes), avec un accent particulier porté sur la recherche d'invariance des données d'entrée, l'extraction d'opérateurs de sélection/compression haut-niveau et la personnalisation des sorties produites. L’ensemble des approches récentes de data-to-text travaillent de manière supervisée, sans représentation explicite des opérateurs d’extraction qu’ils manipulent pour passer du contenu tabulaire global à la synthèse textuelle [1,2,3,4]. Ce projet se démarque car il propose de s’intéresser à l’expression de ces opérateurs, afin de gagner en interprétabilité des modèles, ainsi qu’en capacité de contrôle sur les textes générés. En outre, si dans un cadre figé bien défini, avec de nombreuses ressources pour la supervision, il est possible de s’affranchir de l’expression explicite de ces opérateurs, car le mode de sélection peut être implicitement adapté en fonction des sorties désirées, ce n’est plus envisageable dans un cadre plus large avec une grande hétérogénéité des données d’entrée et des attendus dans un contexte où la supervision est limitée. Notre démarche, en forte rupture avec les approches de la littérature, est donc de chercher à inférer les opérateurs d’extraction de contenu permettant de passer d’un tableau à un texte observé, en ayant pour but d’avoir un apprentissage robuste, qui soit à la fois fortement généralisable et contrôlable par un utilisateur. Pour répondre à ces besoins, nous proposons la construction d’un espace latent sémantique des opérateurs sur les tableaux. L'idée est ensuite d'apprendre à séquencer ces opérateurs pour extraire les aspects saillants des tableaux considérés.

Doctorant.e: Gervillié Raphaël