Description
Date depot: 1 janvier 1900
Titre: Estimation de descriptions musicales par apprentissage profond (deep learning)
Directeur de thèse:
Geoffroy PEETERS (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
{{Contexte}}
L’estimation automatique de descriptions musicales à partir de l’analyse du signal audio (descriptions de type reconnaissance du genre musical, de l’instrumentation, de la position des segments de voix chantées, des battements, des accords ou de la structure temporelle) se fait généralement par développement de systèmes couplant
-* d’une part l’extraction d’informations/ d’observations à partir du signal audio (phase appelée extraction de descripteurs/ features/ attributs audio),
-* d’autre part la modélisation de la relation entre ces observations audio et la description musicale souhaitée.
Selon le type de description souhaitée cette seconde phase repose
-* soit sur la création par des humains d’algorithmes spécifiques (par exemple l’estimation de la position des battements se fait en cascadant une rectification demi-onde des données, suivie d’un ensemble de filtres résonants, suivis d’une détection de maximum)
-* soit sur de l’apprentissage machine supervisé (génératif : GMM/HMM ou discriminant : QDA, SVM, MLP).
Au fil des années, l’Ircam a acquis une bonne compétence dans l’estimation automatique de ces descriptions musicales au travers de technologies spécifiques à chaque problème (voir les bons résultats obtenus dans la campagne d’évaluation internationale MIREX).
Il apparaît aujourd’hui que ces systèmes d’estimation pourraient finalement être tous exprimés dans un même formalisme par utilisation de réseaux de neurones profonds (Deep Learning). Par exemple, les invariants (aux changements de transposition ou de tempo) correspondent aux opérations de Max-Pooling, les rectifications demi-onde aux fonctions d’activations ReLu, les filtres perceptifs peuvent se représenter par des Receptive Fields. [Humphrey, 2012] montre que la majorité des algorithmes jusqu’alors créés par des humains pour des problèmes d’estimation musicale peuvent se représenter comme une succession de filtrages, transformations linéaires/ non-linéaires, de pooling ou de projections. De ce fait la succession de ces opérations pourrait théoriquement être réapprise automatiquement à partir des données par Deep-Learning. C’est ce que fait [Sainath, 2015] (reconnaissance de parole en CLDNNs) ou [Trigoris, 2015] (reconnaissance d’émotion en parole en combinant des CNN et LSTM) qui montrent qu’il est même possible de partir directement du plus bas niveau (la forme d’onde audio). Ces avancées s’expliquent par la maîtrise actuelle des techniques d’entraînements (ReLu, Drop-Out, Batch Normalization, Adaptative Gradient-Descent) et l’accessibilité à de très larges ensembles de données annotées d’entraînement.
Récemment, et de manière similaire à ce qu’il s’est passé en image ou en parole, une révolution majeure a commencé dans le domaine de l’estimation de descriptions musicales par l’utilisation des techniques de Deep Learning. Même si les techniques propres au Deep Learning commencent à être maîtrisées, leur application aux données musicales est souvent faite sans considération des spécificités propres à la musique. L’Ircam, regroupant une expertise certaine en informatique et en musique, est donc un laboratoire de choix pour étudier cette problématique.
Doctorant.e: Cohen-Hadria Alice Louise Marie