Projet de recherche doctoral numero :3813

Description

Date depot: 1 janvier 1900
Titre: Transcription automatique de musique sur partition
Directeur de thèse: Gael RICHARD (LTCI (IP PARIS))
Directeur de thèse: Bertrand DAVID (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: {{Objectifs et contexte}} La transcription automatique de musique constitue l'un des sujets importants du traitement du signal audio et musical et a reçu une attention soutenue dans la dernière décénie. Cependant, d'une part la transcription de signaux polyphoniques complexes, mêlant des instruments de nature diverse reste un problème difficile et d'autre part, la plupart des systèmes cherchent a obtenir une forme symbolique de la transcription telle que la propose le langage MIDI. L'objectif de cette thèse est d'aborder la transcription {sous forme de partition} de la musique enregistrée. Pour cela, le système doit inférer des paramètres de haut niveau tel que la métrique, la position des premiers temps ou encore la tonalité. Une partie intéressante de ce travail concernera le cas particulier de la partition de Jazz, qui se présente sous forme d'une mélodie surmontée d'un chiffrage de l'harmonie. Un premier travail dans cette direction a déjà été effectué en couplant un détecteur de mélodie [Durrieu10] avec un reconnaisseur automatique d'accords. Les premiers résultats ont été très encourageants mais il est apparu très clairement que les partitions de jazz obtenues étaient difficiles à interpréter pour un musicien [Weil2009]. En effet, les erreurs de chaque sous système (extraction de mélodie, détection d'accords, conversion MIDI vers partition) se cumulent ce qui justifie une approche plus intégrée du problème. Les applications sont potentiellement nombreuses, de la formation musicale à la publication en passant par la recherche automatique de documents à partir de requêtes audio. {{Etat de l'art}} La détection de hauteurs multiples et plus généralement la transcription audio vers symbolique est un sujet d'intérêt fort de la communauté scientifique audio comme en témoignent les nombreuses compétitions MIREX sur les sujets afférents (détection du tempo, détection multipitch) et le nombre d'articles récents qui traitent du sujet [Papadopoulos11][Peeters11][Emiya10][Fuentes12][Reis12] A Telecom ParisTech, plusieurs thèses ont eu lieu dans le domaine (V. Emiya 2008, B. Fuentes 2013), ou avec des applications proches (N. Bertin 2008, J-L. Durrieu 2010, Rigaud en cours) ce qui fournit un terreau propice pour cette étude. La thèse de C. Joder (2011) a d'autre part utilisé les CRF pour l'alignement de l'audio avec la partition, ce qui devrait constituer une piste interessante pour ce travail. {{Approches}} Nous proposons deux approches : -* une approche en deux étapes : audio vers midi puis midi vers partition. Cette approche pourrait permettre d'obtenir un algorithme de référence combinant de la détection multipitch performante et de l'estimation de rythme (tempo, barres de mesure). Cette approche s'appuie sur des traitements de type {bottom-up} qui utilisent des représentations mi-niveau extraites à partir du signal brut telles que la décomposition en matrice non-négatives pour la détection de hauteur multiples ou la fonction de détection pour le rythme (qui met en valeur les {accents} rythmiques). -* une approche intégrée probabilisée (top-down). En suivant par exemple les cadres bayésiens tels qu'a pu initialement les mettre en place T. Cemgil [Cemgil06]. Par ailleurs, dans un cadre précis, contextualisé pour un certain genre de musique, de type d'instrumentation ou de courant musical, nous nous proposons d'apprendre des modèles de langages tels que les N-grams. Les outils de modélisations statistique envisagés sont notamment les {Conditional Random Fields}[Joder11] ou les Modèles de Markov Cachés [Emiya10, Papadopoulos11].

Doctorant.e: Durand Simon Rene Georges