Projet de recherche doctoral numero :8583

Description

Date depot: 25 septembre 2023
Titre: Contrôlabilité et adaptabilité des modèles d’apprentissage profond pour la génération de musique
Directeur de thèse: Axel ROEBEL (STMS)
Encadrant : Alexandre DÉFOSSEZ (META AI)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: Depuis les dix dernières années, les modèles d’apprentissage profond ont révolutionné l’intelligence artificielle et ont en partie remplacé les méthodes basées sur des systèmes experts ou bien de traitement du signal. Pour ce qui est des modèles qui génèrent des longues séquences de musique de manière cohérente nous pouvons citer Jukebox [DJP+20], AudioLM [BMV+22] et MusicLM [ADB+23]. Le premier modèle utilise une approche hiérarchique basée sur le concept de VQ-VAE [OVK17] (structure d’encodeur-quantisation-décodeur) et utilise des modèles autorégressifs de type transformers [VSP+17] pour générer des codes quantisés de VQ-VAE. Pour les deux autres, l’encodage-décodage est fait au moyen de l’encodeur neuronal Soundstream [ZLO+21], un modèle de Transformer étant utilisé pour générer des séquences de codes. Nous pouvons également citer l’encodeur neuronal Encodec [DCSA22] développé par Meta AI qui s’est révélé très performant. Le projet de cette thèse est de travailler sur des modèles génératifs pour générer de longues séquences de musique (au moins de l’ordre de la minute) tout en ayant un contrôle fort sur la génération, permettant ainsi à l’utilisateur d’interagir avec le modèle. Dans un deuxième temps, sera étudié l’adaptabilité de ces modèles c’est-à-dire la possibilité de conditionner a posteriori la génération d’un modèle déjà entraîné. Cela permettrait d’éviter d’entraîner depuis le départ un modèle dés lors que l’on veut changer le type de conditionnement de celui-ci.



Doctorant.e: Rouard Simon