Description
Date depot: 26 novembre 2018
Titre: Apprentissage discriminant pour la génération de séquences
Directeur de thèse:
Ludovic DENOYER (Facebook)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Le traitement automatique du langage (TAL) a pour objectif de développer des algorithmes capables de
traiter de façon automatique des données linguistiques. Le langage étant le principal moyen de
communication entre les humains (écriture et parole), il est clair que le TAL pourra grandement faciliter
l'interaction homme-machine. Il permettra d'accomplir des tâches de façon plus intuitive et efficace telles
que la reconnaissance automatique de la parole, la traduction automatique, le résumé automatique de
textes, la recherche d'information, les agents conversationnels, etc. Les premiers travaux en TAL
remontent au début de l'informatique : en 1954, en période de guerre froide, IBM et l'Université de
Georgetown présentèrent le premier système de traduction automatique. Ce dernier était en mesure de
traduire en anglais une soixantaine de phrases russes.
Ces premiers systèmes utilisaient des règles et des grammaires pour résoudre un problème. Aujourd'hui,
l’approche dite statistique est communément considérée comme la plus prometteuse : l'ordinateur
apprend automatiquement les caractéristiques du problème à partir des données annotées (par exemple
des enregistrements audio et leur transcription, un texte dans un langage source et leur traduction, etc).
Les réseaux de neurones profonds (en anglais deep neural networks) fournissent une méthode
d'apprentissage particulièrement efficace qui attire un intérêt grandissant dans les milieux académique et
industriel.
La plupart des applications du TAL nécessitent la génération d’une phrase en langage naturel en sortie
du système. Premièrement, cette phrase doit bien évidemment représenter une solution au problème
posé. Dans le cadre de cette thèse, nous nous intéresserons principalement à la traduction automatique -
la phrase doit donc être une bonne traduction de la phrase en langue source donnée en entrée du
système. Deuxièmement, cette phrase doit être bien formée, c’est-à-dire respecter l’orthographe et la
grammaire de la langue. Il est également souhaitable qu’elle soit “naturelle”, c’est-à-dire qu’il soit difficile
pour un lecteur humain de déterminer si la phrase a été générée par une machine. A titre d’exemple, les
système actuels de description d’images (en anglais : image captioning) produisent des phrases
relativement monotones et toujours très typiques, telles que “un chat sur un canapé” ou “un homme sur
une plage”. Le but de cette thèse est le développement de techniques visant à améliorer la génération de
phrases par un système neuronal. Les différentes directions de recherche sont détaillées dans la suite.
Le but de cette thèse est le développement de nouvelles techniques innovantes pour attaquer ces
problématiques. Deux directions de recherche complémentaires sont prévues :
● apprentissage par renforcement (en anglais : reinforcement learning)
● entraînement par confrontation de deux réseaux adversaires (en anglais : adversarial learning)
Il est attendu que l’utilisation de ces deux techniques2 apportera une amélioration significative de la
qualité des séquences produites.
Doctorant.e: Lample Guillaume