Description
Date depot: 1 janvier 1900
Titre: Fusion multi-niveaux pour la recherche par similarité musicale
Directeur de thèse:
Gael RICHARD (LTCI (IP PARIS))
Directeur de thèse:
Slim ESSID (LTCI (IP PARIS))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
La transcription automatique de la musique est l’opération qui consiste, partant du seul contenu audio, à produire une représentation symbolique d’un morceau de musique (par exemple sa partition), à la manière d’un musicien entraîné se prêtant à une « dictée musicale » [1]. Il est également possible d’extraire du signal audio d’autres types d’informations symboliques telle que la mélodie principale [2], la structure harmonique sous la forme par exemple d’une suite d’accords [3] ou la structure rythmique (voir par exemple Alonso [4]).
Ces informations sont particulièrement pertinentes sur un point de vue musical et peuvent être exploitées pour de nombreuses applications et notamment pour la recherche de similarités musicales. Ces dernières applications se contentent souvent d’utiliser des informations de nature timbrale afin de rechercher une similarité de style ou genre mais les recherches actuelles s’orientent assez clairement vers l’intégration d’informations de plus haut niveau telle que la mélodie, le rythme et ou la structure harmonique. Ces dernières informations s’avèrent effectivement particulièrement appréciable par exemple pour la recherche de reprises ('cover versions') [5],[6] ou au contrôle du copyright (droits d’auteurs). Pour certaines applications, il est également possible d’utiliser de l’information de nature sémantique (tels que les tags rentrés par les internautes).
Ainsi, un morceau audio se retrouve décrit par une multitude de « descripteurs », plus ou moins localisés temporellement, et décrivant des concepts à plus ou moins haut niveau et leur utilisation dans un système de recherche de similarité s’avère particulièrement délicat en raison de leur hétérogénéité. Il est ainsi nécessaire de « fusionner » cette information multiple. Cette thématique n’est pas récente et trouve déjà quelques solutions notamment dans la communauté « audiovisuelle ». Dans cette thèse, il est proposé de poursuivre les recherches en fusion multi-niveaux (fusion de descripteurs hétérogènes, utilisation du contexte et des corrélations entre les concepts visés dans la construction des classificateurs, exploitation d'approches de régression, fusion de classificateurs faibles) avec application à plusieurs problèmes de similarité musicale incluant la similarité émotionnelle [11],[12], la similarité par genre et la similarité de version (« cover version »). Sur ce dernier sujet, un premier travail a d’ailleurs déjà été réalisé et a donné lieu la soumission d’un article de conférence [7].
Bibliographie restreinte
[1] Signal processing methods for automatic transcription of music, A. Klapuri et M. Davy (éditeurs), Springer, New York, 2006.
[2] Durrieu J.-L., Richard G. and David B., Singer melody extraction in polyphonic signals using source separation methods, in Proc. of ICASSP 2008.
[3] L. Kyogu Lee, M. Slaney, Acoustic Chord Transcription and Key Extraction From Audio Using Key-Dependent HMMs Trained on Synthesized Audio, in IEEE Trans. On Audio, Speech, and Language Processing,Volume 16, Issue 2, Feb. 2008 Page(s):291 – 301
[4] M. Alonso, G. Richard and B. David, “Accurate tempo estimation based on harmonic+noise decomposition”, EURASIP Journal on Advances in Signal Processing, vol. 2007, Article ID 82795, 14 pages, 2007.
[5] D. P. W. Ellis and G. E. Poliner, “Identifying cover songs with chroma features and dynamic programming beat tracking,” in Proc. IEEE International Conference on Acoustic, Speech, Signal Processing (ICASSP), Apr. 2007, vol. 4, pp. 1429–1432.
[6] J. Serra, E. Gomez, P. Herrera, and X. Serra, “Chroma binary similarity and local alignment applied to cover song identification,” IEEE Trans. on Audio, Speech and Language Processing, vol. 16, no. 6, pp. 1138–1151, Aug. 2008.
[7] R. Foucard, J-L Durrieu, M. Lagrange, and G. Richard, « Multimodal similarity between streams for cover version detection », submitted to Icassp2010 (special session of Music Signal Processing Exploiting MusicalKnowledge).
[8] D.Turnbull, L. Barrington, D. Torres, and G. Lanckriet, “Semantic Annotation and Retrieval
of Music and Sound Effects”, in IEEE Trans. On Audio, Speech, and Language Processing, Volume 16, Issue 2, Feb. 2008.
[9] Chen, Gang and Wang, Tian-Jiang and Herrera, Perfecto , “A Novel Music Retrieval System with Relevance Feedback”, in Proceedings of the 3rd International Conference on Innovative Computing Information and Control, 2008.
[10] Jean-Julien Aucouturier, Francois Pachet, Pierre Roy, Anthony Beurivé, « Signal + Context = Better Classification » in ISMIR 2006.
[11] T. Giannakopoulos, A. Pikrakis and S. Theodoridis « A dimensional approach to emotion recognition of speech from movies,” in ICASSP09.
[12] Yi-Hsuan Yang, Yu-Ching Lin, Ya-Fan Su, and Homer H. Chen, “A Regression Approach to Music Emotion”, IEEE Trans. Audio, Speech and Language Processing, 16 (2), 448—457, 2008.
Doctorant.e: Foucard Remi Serge