Projet de recherche doctoral numero :6376

Description

Date depot: 26 septembre 2019
Titre: Génération abstractive de résumés
Directeur de thèse: Sylvain LAMPRIER (ISIR (EDITE))
Directeur de thèse: Benjamin PIWOWARSKI (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: L'objectif scientifique de cette thèse est de proposer et de développer des méthodes permettant de résumer automatiquement des textes avec des méthodes génériques et indépendantes de la langue choisie. L'état de la recherche est aujourd'hui à l'état balbutiant à la fois pour la syntaxe et la mesure de contenu. L'enjeu pour la thèse est donc d'avancer dans ces deux domaines à travers la mise en place d'un modèle adverse qui cherche à distinguer si la syntaxe du résumé est correcte et un résumeur qui cherche à maximiser le contenu en rapport avec la politique du résumé tout en trompant le modèle adverse. L'idée directrice de la thèse est de définir un résumeur par l'optimisation de deux critères distincts, et dans une certaine mesure opposés : 1) quantité d'information (tiers sémantique Le premier critère mesure la extit{qualité du contenu} en mesurant la quantité d'information présente dans le résumé. Cette mesure reflétera la personnalisation désirée via la définition de métriques adaptées à des cas d'utilisation précis. 2. Qualité syntaxique (tiers syntaxique) Le second critère mesure la qualité syntaxique du résumé produit. Pour le définir, nous utiliserons une ressource presque illimitée, à savoir les textes écrits par des êtres humains, et la définition d'un extit{modèle adverse} cite{Goodfellow2014} qui essaie de distinguer les textes produits par le résumeur et ceux écrits par des êtres humains. Le résumé est alors vu comme un équilibre entre la maximisation du la quantité d'information personnalisée présente dans le résumé et la production d'un texte syntaxiquement correct permettant de ``tromper'' le modèle adverse.

Doctorant.e: Scialom Thomas