Projet de recherche doctoral numero :8119

Description

Date depot: 5 avril 2021
Titre: Manipulation des attributs de la voix par apprentissage de représentations neuronales démêlées
Directeur de thèse: Jean-Louis GIAVITTO (STMS)
Encadrant : Nicolas OBIN (STMS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Les progrès réalisés ces dernières années en apprentissage de réseaux de neurones profonds ont permis des avancées spectaculaires dans les domaines de la synthèse de parole à partir du texte et de la transformation de la voix. Les architectures existantes permettent désormais de réaliser des voix artificielles synthétisée ou manipulées ayant un réalisme proche de celui de voix humaines. En particulier, des algorithmes d’inversion neuronale permettent efficacement de reconstruire du signal de parole à partir de représentations incomplètes comme le spectrogramme en échelle Mel. L’un des principaux défis actuels réside dans la possibilité de contrôler intuitivement les attributs vocaux souhaités : depuis la manipulation de paramètres acoustiques comme la hauteur, les rythme, ou le « timbre » jusqu’à la manipulation de paramètres physiologiques, sociaux-culturels, ou psychologiques comme l’identité, l’âge/le genre, l’accent, l’expressivité, ou la langue. L’objectif de cette thèse (cf. la description complète du sujet) est d’exploiter les avancées récentes en apprentissage neuronal de représentations démêlées pour permettre la manipulation réaliste des attributs de la voix. L’approche envisagée se fondera sur les dernières avancées dans le domaine de la conversion par auto-encodeurs conditionnés, en exploitant les stratégies basées sur la compression neuronal de l’information , l’apprentissage antagoniste, et la formalisation de représentations basées sur des mesures d’information mutuelle. Les résultats produits au cours de la thèse auront vocation à ếtre intégrés au logiciel de transformation de la voix ircamTools TRAX pour permettre la transformation de la voix avec un contrôle intuitif de ses attributs, avec de nombreuses applications dans les domaines du design sonore et de la production audio professionnelle, et possiblement utilisés dans des applications artistiques et créatives en lien avec les productions culturelles de l'Ircam : installations sonores, documentaires historiques, etc.