Description
Date depot: 1 janvier 1900
Titre: Estimation de hauteurs multiples pour la transcription de musique polyphonique
Directeur de thèse:
Gael RICHARD (LTCI (IP PARIS))
Directeur de thèse:
Roland BADEAU (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Cette thèse s’insère dans la cadre des études sur l’indexation et la transcription des signaux musicaux menées au sein du département TSI de Télécom ParisTech, dans l’équipe Audio
Acoustique et Ondes (AAO), projet Audiosig. Le sujet de thèse se focalise plus précisément
sur l’estimation de hauteurs de notes de musiques, déterminées par leur fréquence
fondamentale.
-* Contexte
Si un grand nombre de méthodes ont été développées pour estimer la fréquence fondamentale
dans un signal de musique monophonique, le problème de l’estimation de fréquences
fondamentales multiples dans un signal polyphonique (généralement appelée estimation
« multipitch » en anglais) a été beaucoup moins étudié (voir la référence [1] pour une
bibliographie récente). La principale difficulté vient du fait que les sons émis simultanément
par les instruments de musique interfèrent dans le domaine spectral, ce qui ne permet pas de
les identifier indépendamment les uns des autres. Les méthodes visant à résoudre ce problème
se classent généralement en deux catégories :
- Les méthodes itératives [2], qui estiment les hauteurs de chaque note les unes à la suite
des autres, en retirant du mélange les notes déjà estimées à chaque itération. Elles
présentent l’avantage d’une certaine rapidité d’exécution, mais tendent à accumuler
progressivement les erreurs d’estimation.
- Les méthodes conjointes [3], qui estiment simultanément les hauteurs de toutes les
notes. Elles évitent l’accumulation des erreurs, mais s’avèrent généralement plus
gourmandes en temps de calcul.
-* Projet de thèse
Nous proposons dans le cadre de ce doctorat d’approfondir le potentiel d’une nouvelle
technique d’estimation, qui appartient à la famille des méthodes conjointes, mais
s’implémente comme une méthode itérative. Cette technique, présentée lors de la conférence
ICASSP 2009 [4], réunit les avantages des deux approches :
1) elle n’accumule pas les erreurs au fil des itérations ;
2) elle présente une faible complexité ;
3) elle est robuste aux recouvrements spectraux et aux erreurs d’octaves ;
4) elle se présente dans un cadre statistique propre (maximum de vraisemblance).
Cette méthode s’appuie sur une représentation du signal par un modèle de mélange de
gaussiennes. La vraisemblance des observations est alors maximisée itérativement à l’aide de
l’algorithme EM (Expectation-Maximisation), qui réduit le problème de l’estimation
multipitch à plusieurs problèmes d’estimation monopitch. L’algorithme EM présente en
revanche l’inconvénient de rester « coincé » dans des maxima locaux de la fonction de
vraisemblance ; il faudra donc développer de nouvelles stratégies d’exploration de l’espace
des fréquences fondamentales. L’algorithme sera implémenté en langage Matlab, et testé sur
une base de données de signaux audio. Ses performances pourront être comparées à celles
d’autres méthodes d’estimation de hauteurs multiples. Enfin, il sera appliqué au problème de
la transcription automatique de musique, visant à construire une représentation symbolique
(partition musicale) à partir d’un enregistrement.
-* Bibliographie restreinte
[1] “Multi-Pitch Estimation”, M.G. Christensen and A. Jakobsson, Synthesis Lectures on
Speech and Audio Processing, Morgan&Claypool publishers, March 2009
[2] “Multipitch estimation and sound separation by the spectral smoothness principle”, A.
Klapuri, IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP), Salt Lake City, USA, May 2001.
[3] “Multipitch estimation of inharmonic sounds in colored noise”, V. Emiya, R. Badeau, and
B. David, 10th International Conference on Digital Audio Effects (DAFx), Bordeaux, France,
September 2007.
[4] “Expectation-maximization algorithm for multi-pitch estimation and separation of
overlapping harmonic spectra”, R. Badeau, V. Emiya, and B. David, 2009 International
Conference on Acoustics, Speech, and Signal Processing (ICASSP), Taipei, Taiwan, April
2009
[5] “Relative pitch estimation of multiple instruments”, G. J. Mysore and P. Smaragdis, IEEE
International Conference on Acoustics, Speech and Signal Processing (ICASSP), Taipei,
Taiwan, April 2009
[6] Multi-Pitch Estimation Using Harmonic Music, M.G. Christensen, A. Jakobsson, S.H.
Jensen, Fortieth Asilomar Conference on Signals, Systems and Computers, November 2006
Doctorant.e: Fuentes Benoit Alain