Projet de recherche doctoral numero :8163

Description

Date depot: 20 avril 2021
Titre: Apprentissage non supervisé de representations linguistiques à partir du signal audio
Directeur de thèse: Benoit SAGOT (Inria-Paris (ED-130))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Traitement automatique des langues et de la parole

Resumé: L'apprentissage de modèles de langue (LM) neuronaux par apprentissage auto-supervisé joue un rôle central dans les travaux récents en traitement automatique des langues (NLP), en permettant de résoudre de nombreuses taches applicatives en NLP en fine-tunant ces modèles avec des volumes limités de données annotées. Dans le domaine du traitement de la parole, cette stratégie s'est avérée efficace pour la tâche de reconnaissance automatique de la parole (ASR), puisque d’excellentes performances en ASR peuvent être obtenues avec un LM et seulement 10 minutes de données annotées, ou bien avec 10 heures de données étiquetées sans LM. Ceci suggère que ces systèmes non-supervisés vont au-delà de la modélisation acoustique et apprendre leurs propres LM à partir de la parole. Bien que cette approche par pré-entraînement puis fine-tuning de LM soit largement utilisée, très peu de travail a évalué sérieusement la qualité des représentations vectorielles de ces modèles avant fine-tuning. L'une des possibilités est d'utiliser un ensemble de métriques « zero-shots » qui permettent d'étudier la qualité de ces modèles entraînés à 4 niveaux linguistiques: phonétique, lexique, syntaxe et sémantique. L'objectif de cette thèse est de développer de nouvelles architectures de LM destinées à être entraînées sur des données de parole afin d'en améliorer les performances sur ces 4 métriques puis, à terme, sur d'autres métriques plus aval (par exemple la qualité de dialogues produits par des chatbots s'appuyant sur de tels ML).



Doctorant.e: Nguyen Tu Anh