Projet de recherche doctoral numero :2891

Description

Date depot: 1 janvier 1900
Titre: Glottal source and vocal-tract separation
Directeur de thèse: Xavier RODET (STMS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Cette étude s'intéresse au problème de l'inversion d'un modèle de production de la voix étant donné un enregistrement audio de parole pour obtenir une représentation de le source sonore qui est générée au niveau de la glotte, la source glottique, ainsi qu'un représentation des résonances et anti-rsonances créées par les cavités du conduit vocal. Cette séparation des éléments composants la voix donne la possibilité de manipuler indépendamment les caractéristiques de la source et le timbre des résonances. On trouve de nombreuses applications de ce sujet comme celles présentées dans cette étude (transformation de la voix et synthèse de la parole) et bien d'autres comme la conversion d'identité, la synthèse d'expressivité, la restauration de la voix qui peuvent être utilisées dans les technologies de divertissement, des installations sonores, les industries de la musique et du cinéma, les jeux vidéos et autres jouets sonores, la télécommunication, etc. Dans cette étude, nous supposons que les éléments perçus de la voix peuvent être manipulés en utilisant le modèle source-filtre. Dans le domaine spectral, la production de la voix est donc décrite comme une multiplication des spectres de ses éléments, la source glottique, le filtre du conduit vocal et la radiation. La seconde hypothèse utilisée dans cette étude concerne la composante déterministe de la source glottique. En effet, nous supposons qu'un modèle glottique peut schématiser une période de la source glottique. En utilisant une telle description analytique, les spectres d'amplitude et de phase de la source déterministe sont donc liés par les paramètres de forme du modèle glottique. Vis-à-vis de l'état de l'art des méthodes de transformation de la voix et de sa synthèse, le naturel et le contrôle de ces voix devraient donc être améliorés en utilisant un tel modèle. Par conséquent, nous essayons de répondre au trois questions suivantes dans cette étude: 1) Comment estimer un paramètre de forme d'un modèle glottique. 2) Comment estimer le filtre du conduit vocal en utilisant ce modèle glottique. 3) Comment transformer et synthétiser un signal vocal en utilisant toujours ce même modèle. Une attention toute particulière à été portée à la première question. Premièrement, nous supposons que la source glottique est un signal à phase mixte et que la réponse impulsionnelle du filtre du conduit vocal est un signal à minimum de phase. Puis, considérant ces propriétés, différentes méthodes sont proposées qui minimisent la phase carrée moyenne du résiduel convolutif d'un spectre de parole observé et de son modèle. Une dernière méthode est décrite où un unique paramètre de forme est solution d'une forme quasi fermée du spectre observé. De plus, cette étude discute les conditions qu'un modèle glottique et sa paramétrisation doivent satisfaire pour assurer que les paramètres sont estimés de façon fiable en utilisant les méthodes proposées. Ces méthodes sont également évaluées et comparées avec des méthodes de l'état de l'art en utilisant des signaux synthétiques et electro-glotto-graphiques. En utilisant une des méthodes proposées, l'estimation du paramètre de forme est indépendante de la position et de l'amplitude du modèle glottique. En plus, il est montré que cette même méthode surpasse toute les méthodes comparées en terme d'efficacité. Pour répondre à la deuxième et à la troisième question, nous proposons une procédure d'analyse/synthèse qui estime le filtre du conduit vocal en utilisant un spectre observé et sa source estimée. Des tests de préférences ont été menés et leurs résultats sont présentés dans cette étude pour comparer la procédure décrite et d'autres méthodes existantes. En terme de transposition de hauteur perçue, il est montré que la qualité globale des segments voisés d'un enregistrement peut être meilleure pour des facteurs de transposition importants en utilisant la méthode proposée. Il est aussi montré que le souffle perçu d'une voix peut être contrôlé efficacement.

Doctorant.e: Degottex Gilles