Description
Date depot: 1 janvier 1900
Titre: Avatars capables d'écoute, d'apprentissage et d'interaction audio-musicales
Directeur de thèse:
Gérard ASSAYAG (STMS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Cette recherche porte sur la constitution, l'adaptation et la mise en œuvres effective de modèles performants d'écoute artificielle, d'apprentissage et d'interaction appliqués à la musique vivante ou enregistrée pour concourir à la formation d'avatars musicaux numériques, réactifs et capables de s'intégrer de façon naturelle dans des dispositifs variés tels que la scène, la (post-)production, la pédagogie musicales.
Le projet comporte trois volets :
1) l'écoute artificielle : elle vise à élaborer selon un processus causal des représentations cognitivement fondées d'unités et de structures mémorielles discrètes à partir d'un flux continu de signal audio. Ces études rendent compte de la segmentation, du codage assimilatif et de la sensibilité à l'innovation et à la surprise dans le processus d'écoute. Des progrès importants ont été accomplis ces dernières années à l'aide de méthodes de théorie dynamique de l'information, comme l'observation de la dynamique d'évolution de la mesure IR (Information Rate) qui combine le 'gain de codage' induisant une puissance prédictive avec le 'coût d'explication' fonction de la complexification différentielle du modèle statistique. Nous voulons aller plus loin en explorant l'idée des 'alphabets adaptatifs' dans lequels l'identité et la fonction d'une unité discrète déjà reconnue peut muter durant le processus d'écoute, impliquant alors une reconfiguration incrémentale des modèles statistiques. Le gain espéré est une adéquation plus fine à la complexité des signaux musicaux, notamment polyphonique. Un cadre théorique puissant pour accueillir cette expérimentation nouvelle est celui de la géométrie de l'information qui a été mise en œuvre pour la première fois sur le signal audio-musical dans une thèse récente.
2) apprentissage génératif de séquences formelles : les modèles probabilistes exploités pour l'écoute artificielle sont utiles pour déterminer l'alphabet de référence de la séquence musicale (notes, accords, textures, évènements timbraux remarquables mais non classifiables selon la théorie musicale classique) mais ne suffisent pas à rendre compte des phénomènes cognitifs de plus haut niveau impliqués dans la mémorisation à long terme et la restitution (recall) innovante de phrases musicales telles qu'elles apparaissent par exemple dans l'improvisation musicale et la composition. Des modèles sophistiqués tels les PST (Predictive Suffix Trees), les MPSG (Multi-attribute Probabilistic Suffix Graphs) ou FO (Factor Oracle) on été expérimentés dans ce contexte avec un certain succès, mais leurs propriétés formelles comme systèmes d'apprentissage et de re-production n'ont pas été suffisemment étudiées. Est-il possible alors de proposer de nouveaux algorithmes ou de raffiner les algorithmes existants pour mieux approcher une ingénierie des connaissances musicales, et notamment contrôler les niveaux syntaxiques supérieurs qui permettent d'engendrer des séquences contextuellement convaincantes ?
3) intégration dans l'interaction : l'écoute artificielle et la modélisation de séquences formelles approchent respectivement la question de la mémoire musicale à court/moyen terme et celle à long terme. Jusqu'à maintenant les études dans ces domaines sont restées relativement indépendantes, ce qui explique que l'écoute artificielle a eu peu de débouchés sur les systèmes de production et l'approche formelle en a eu peu sur l'interaction homme/machine en temps réel. Pour un contexte interactif où le système artificiel écoute, apprend et joue de manière cohérente, nous souhaitons intégrer ces deux échelles de modélisation sous la forme d'agents concurrents qui se contraignent et se synchronisent. Dans un premier temps nous voulons mettre à profit les algèbres d'horloge inspirées des travaux sur les langages synchrones et les contraintes concurrentes en temps réel qui ont fait l'objet de publications récentes. Il s'agira ensuite de proposer une architecture pour l'expérimentation en vraie grandeur de l'interaction vivante musicien / ordinateur.
Doctorant.e: Levy Benjamin