Projet de recherche doctoral numero :5481

Description

Date depot: 26 novembre 2018
Titre: Apprentissage discriminant pour la génération de séquences
Directeur de thèse: Ludovic DENOYER (Facebook)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Le traitement automatique du langage (TAL) a pour objectif de développer des algorithmes capables de traiter de façon automatique des données linguistiques. Le langage étant le principal moyen de communication entre les humains (écriture et parole), il est clair que le TAL pourra grandement faciliter l'interaction homme-machine. Il permettra d'accomplir des tâches de façon plus intuitive et efficace telles que la reconnaissance automatique de la parole, la traduction automatique, le résumé automatique de textes, la recherche d'information, les agents conversationnels, etc. Les premiers travaux en TAL remontent au début de l'informatique : en 1954, en période de guerre froide, IBM et l'Université de Georgetown présentèrent le premier système de traduction automatique. Ce dernier était en mesure de traduire en anglais une soixantaine de phrases russes. Ces premiers systèmes utilisaient des règles et des grammaires pour résoudre un problème. Aujourd'hui, l’approche dite statistique est communément considérée comme la plus prometteuse : l'ordinateur apprend automatiquement les caractéristiques du problème à partir des données annotées (par exemple des enregistrements audio et leur transcription, un texte dans un langage source et leur traduction, etc). Les réseaux de neurones profonds (en anglais ​deep neural networks​) fournissent une méthode d'apprentissage particulièrement efficace qui attire un intérêt grandissant dans les milieux académique et industriel. La plupart des applications du TAL nécessitent la génération d’une phrase en langage naturel en sortie du système. Premièrement, cette phrase doit bien évidemment représenter une solution au problème posé. Dans le cadre de cette thèse, nous nous intéresserons principalement à la traduction automatique - la phrase doit donc être une bonne traduction de la phrase en langue source donnée en entrée du système. Deuxièmement, cette phrase doit être bien formée, c’est-à-dire respecter l’orthographe et la grammaire de la langue. Il est également souhaitable qu’elle soit “naturelle”, c’est-à-dire qu’il soit difficile pour un lecteur humain de déterminer si la phrase a été générée par une machine. A titre d’exemple, les système actuels de description d’images (en anglais : ​image captioning​) produisent des phrases relativement monotones et toujours très typiques, telles que “un chat sur un canapé” ou “un homme sur une plage”. Le but de cette thèse est le développement de techniques visant à améliorer la génération de phrases par un système neuronal. Les différentes directions de recherche sont détaillées dans la suite. Le but de cette thèse est le développement de nouvelles techniques innovantes pour attaquer ces problématiques. Deux directions de recherche complémentaires sont prévues : ●  apprentissage par renforcement (en anglais : ​reinforcement learning​) ●  entraînement par confrontation de deux réseaux adversaires (en anglais : ​adversarial learning​) Il est attendu que l’utilisation de ces deux techniques2 apportera une amélioration significative de la qualité des séquences produites.



Doctorant.e: Lample Guillaume