Informations professionnelles
Statut: Docteur ED
ED: EDITE
Unité de recherche: STMS
Employeur: IRCAM Date de debut de thèse: 10 février 2020 Date soutenance de thèse: 7 juillet 2023 Directeur de thèse: Axel ROEBEL (STMS) Sujet de thèse: Analysis, description, and transformation of singing style
Employeur: IRCAM Date de debut de thèse: 10 février 2020 Date soutenance de thèse: 7 juillet 2023 Directeur de thèse: Axel ROEBEL (STMS) Sujet de thèse: Analysis, description, and transformation of singing style
Soutenance de thèse
Données générales
Titre : On Temporal Constraints for Deep Neural Voice Alignment
Date : 7 juillet 2023
Heure: 09:30
Résumé : This thesis studies the voice alignment task, which aims to temporally synchronize a voice signal with a sequence of symbols describing its evolution. The core of this research is the development of an acoustic model, ADAGIO, capable of predicting time-symbol representations. Recent progress in deep learning have led to implement ADAGIO as a deep neural network in a powerful generic formalism: the “Connectionist Temporal Classification” (CTC). However, the great flexibility offered by CTC is undermined by its intrinsic lack of guarantees for temporally accurate predictions. Therefore, additional temporal constraints have been propoposed to improve the quality of the alignments inferred with CTC. Concretely, three ancillary tasks of (1) spectral content reconstruction; (2) audio structure propagation; and (3) guided monotony are introduced and induce a positive impact on the alignment between voices, texts, and notes. ADAGIO has contributed to many practical, collaborative applications.
Lieu : IRCAM
1 place Igor Stravinsky
75004 Paris
Rapporteurs/ Rapporteuses
Personne | Qualité | Etablissement |
---|---|---|
M. Richard Gael | Professeur des universités | Laboratoire Traitement et Communication de l'Information, Telecom Paris |
M. Benetos Emmanouil | Maître de Conférences (HDR) | Queen Mary University of London (Royaume-Uni) |
Composition du jury
Personne | Qualité | Etablissement |
---|---|---|
M. Briot Jean-pierre | Professeur des universités | LIP6, Sorbonne Université, CNRS |
M. Vincent Emmanuel | Directeur de recherche (HDR) | Inria Nancy - Grand Est, INRIA |
Mme. Gupta Chitralekha | Chargée de recherche | National University of Singapore (Singapour) |
M. Hennequin Romain | Industriel | DEEZER |
Mme. Bittner Rachel | Industrielle | Spotify France SAS |
M. Roebel Axel | Directeur de recherche (HDR) | Sciences et technologies de la musique et du son, Sorbonne Université, IRCAM |
M. Richard Gael | Professeur des universités | Laboratoire Traitement et Communication de l'Information, Telecom Paris |
M. Benetos Emmanouil | Maître de Conférences (HDR) | Queen Mary University of London (Royaume-Uni) |