Projet de recherche doctoral numero :8474

Description

Date depot: 31 mars 2023
Titre: Text-to-speech synthesis for expressive storytelling
Directeur de thèse: Axel ROEBEL (STMS)
Directeur de thèse: Nicolas OBIN (STMS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Traitement automatique des langues et de la parole

Resumé: L’objectif de la thèse est de concevoir, d’implémenter, et d’apprendre un algorithme de synthèse neuronal de la parole à partir du texte (TTS) adapté à la lecture d’histoires pour en enfant, notamment en termes d’expressivité et de contextualisation. D’une part, la voix doit être expressive pour rendre la lecture vivante et maintenir l’attention de l’auditeur ; d’autre part, l’expressivité réalisée doit être cohérente avec le sens et la coloration expressive du passage d’une histoire. Enfin, un effort sera porté sur la génération de nouvelles voix pour diversifier les voix disponibles pour la lecture. Les travaux réalisés devront apporter des contributions sur l’une ou plusieurs des problématiques suivantes : • L’implémentation d’un synthétiseur neuronal de parole à partir du texte et son apprentissage à partir de bases de données multi-locuteurs issues de livres audio ; • L’intégration d’informations textuelles supplémentaires (par exemple : coloration expressive d’une phrase, structure narrative d’une histoire) pour améliorer la contextualisation de la synthèse et de son expressivité ; • La structuration de l’espace de représentation des locuteurs pour optimiser la corrélation entre une position dans l’espace locuteur et la position correspondante dans l’espace perceptif (par exemple, une interpolation entre deux locuteurs doit correspondre à une voix qui est perçue comme interpolée entre ces deux locuteurs) L’ensemble des travaux réalisés seront évalués selon les protocoles usuels en synthèse de parole à partir du texte, mais également en relation avec les partenaires du projet pour évaluer les résultats du synthétiseur dans un scénario d’usage ou pour évaluer l’effet de l’expressivité et de voix de synthèse sur l’écoute des enfants. Les avancées réalisées seront intégrées à la collection de technologies vocales de l’Ircam et possiblement évaluées in situ dans le cadre de productions professionnelles et/ou artistiques réalisées à l’Ircam.



Doctorant.e: Lemerle Théodor