Projet de recherche doctoral numero :7656

Description

Date depot: 1 octobre 2020
Titre: Apprentissage profond pour la génération conditionnée de musique multipiste symbolique
Directeur de thèse: Jean-Pierre BRIOT (LIP6)
Encadrant : Nicolas GUTOWSKI (LERIA)
Encadrant : Fabien CHHEL (ESEO-Tech)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: L'objectif est de concevoir et évaluer des méthodes pour assister les artistes dans leurs processus créatifs [9]. Ces raisons font que l’on s’intéressera exclusivement à la représentation symbolique qui correspond à une mise en forme musicale utilisée en composition. Le premier axe de recherche de ce projet consiste en l’exploration de méthodes de génération multipiste de musique symbolique par apprentissage profond. L’objectif est de générer simultanément plusieurs pistes d’instruments ou voix de manière cohérente, de façon à ce qu’elles forment une harmonie agréable musicalement, se rapprochant de celles présentes dans les corpus utilisés pour l’apprentissage des modèles. Ce type de génération a encore été peu abordé pour la musique symbolique et les deux travaux majeurs présentés font face à des limites contraignant le champ de créativité qu’ils offrent. Ces limites nous ont conduits à nous intéresser au deuxième axe de recherche de ce projet, s’orientant autour du contrôle que l’on souhaitera donner au processus de génération musicale. C’est un aspect crucial pour la portée de ce projet qui vise l’assistance à la composition. Il est important de proposer des méthodes de génération s’appuyant sur des données fournies par un compositeur et non pas de produire de la musique ex nihilo. Il s’agit d’un défi bien connu des méthodes de génération de contenu par apprentissage profond [5], que l’on essaiera de relever en orientant les résultats produits par des conditions posées par le compositeur. En génération de musique, les résultats peuvent être altérés en fonction de différents paramètres qui peuvent être un genre musical comme dans l’architecture WaveNet [27] ou JukeBox [16], une suite d’accords comme le modèle MidiNet [11] ou une piste comme GrooVAE [22, 23]. Les méthodes d’inpainting permettent également de compléter des pistes de musique en appliquant des contraintes de positions de notes comme le démontrent les modèles Anticipation-RNN [32] et DeepBach [17] de Gaëtan Hadjeres et al. Enfin de nombreux travaux s’appuient aujourd’hui sur les VAE, qui permettent d’apprendre à un réseau à encoder les données d’entrée d’un corpus en un espace latent de distributions Gaussiennes (loi normale). Cet espace latent représente alors les caractéristiques communes principales des musiques du corpus utilisé, et l’on peut en manipulant ces données appliquer un certain contrôle au contenu généré par le générateur.



Doctorant.e: Fradet Nathan