MyEDB

Description

Date depot: 26 novembre 2018
Titre: Apprentissage discriminant pour la génération de séquences
Directeur de thèse: Ludovic DENOYER (Facebook)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Le traitement automatique du langage (TAL) a pour objectif de développer des algorithmes capables de traiter de façon automatique des données linguistiques. Le langage étant le principal moyen de communication entre les humains (écriture et parole), il est clair que le TAL pourra grandement faciliter l'interaction homme-machine. Il permettra d'accomplir des tâches de façon plus intuitive et efficace telles que la reconnaissance automatique de la parole, la traduction automatique, le résumé automatique de textes, la recherche d'information, les agents conversationnels, etc. Les premiers travaux en TAL remontent au début de l'informatique : en 1954, en période de guerre froide, IBM et l'Université de Georgetown présentèrent le premier système de traduction automatique. Ce dernier était en mesure de traduire en anglais une soixantaine de phrases russes. Ces premiers systèmes utilisaient des règles et des grammaires pour résoudre un problème. Aujourd'hui, l’approche dite statistique est communément considérée comme la plus prometteuse : l'ordinateur apprend automatiquement les caractéristiques du problème à partir des données annotées (par exemple des enregistrements audio et leur transcription, un texte dans un langage source et leur traduction, etc). Les réseaux de neurones profonds (en anglais deep neural networks) fournissent une méthode d'apprentissage particulièrement efficace qui attire un intérêt grandissant dans les milieux académique et industriel. La plupart des applications du TAL nécessitent la génération d’une phrase en langage naturel en sortie du système. Premièrement, cette phrase doit bien évidemment représenter une solution au problème posé. Dans le cadre de cette thèse, nous nous intéresserons principalement à la traduction automatique - la phrase doit donc être une bonne traduction de la phrase en langue source donnée en entrée du système. Deuxièmement, cette phrase doit être bien formée, c’est-à-dire respecter l’orthographe et la grammaire de la langue. Il est également souhaitable qu’elle soit “naturelle”, c’est-à-dire qu’il soit difficile pour un lecteur humain de déterminer si la phrase a été générée par une machine. A titre d’exemple, les système actuels de description d’images (en anglais : image captioning) produisent des phrases relativement monotones et toujours très typiques, telles que “un chat sur un canapé” ou “un homme sur une plage”. Le but de cette thèse est le développement de techniques visant à améliorer la génération de phrases par un système neuronal. Les différentes directions de recherche sont détaillées dans la suite. Le but de cette thèse est le développement de nouvelles techniques innovantes pour attaquer ces problématiques. Deux directions de recherche complémentaires sont prévues : ● apprentissage par renforcement (en anglais : reinforcement learning) ● entraînement par confrontation de deux réseaux adversaires (en anglais : adversarial learning) Il est attendu que l’utilisation de ces deux techniques2 apportera une amélioration significative de la qualité des séquences produites.

Doctorant.e: Lample Guillaume

Projet de recherche doctoral numero :5481

Description