Projet de recherche doctoral numero :8332

Description

Date depot: 14 avril 2022
Titre: Écoute musicale artificielle : une approche unifiée IA symbolique et neuronale pour passer d’une écoute locale et réactive à une écoute globale et narrative
Directeur de thèse: Gérard ASSAYAG (STMS)
Directeur de thèse: Nicolas OBIN (STMS)
Encadrant : Jérôme NIKA (STMS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: Thèse co-encadrée par Nicolas Obin et Jérôme Nika, directeur Gérard Assayag La question de l’écoute artificielle est centrale dans les recherches portant sur la co-créativité humain-machine. Les développements récents de ces thématiques ont donné naissance à de nombreux modèles d’agents génératifs capables de s’intégrer dans la production d’un discours musical collectif dans le périmètre d’un « rôle » établi (un exemple trivial étant par exemple « soliste » ou « accompagnateur»). La définition des mécanismes régissant la contribution d’un agent à ce discours associe : -- Une mémoire musicale (un modèle génératif construit sur une base de données musicale) -- Un comportement établi d’action/réaction (traitement symbolique-symbolique, et conversion symbolique-acoustique) traduisant des spécifications venant d’un utilisateur ou d’un module de perception en "intentions" : des requêtes au modèle de mémoire musicale dont l'exécution génère les contributions de l’agent au discours musical. -- Une perception (conversion acoustique-symbolique) d’un flux musical opéré par une machine d’écoute. Ce sujet de thèse transdisciplinaire se situe au carrefour de l’intelligence artificielle, du traitement du signal et de l’information, de la créativité computationnelle avec comme applications la génération automatique de musique et la musicologie computationnelle. Ce projet cherchera à créer une machine d’écoute réactive capable de concilier les deux aspects de l’intelligence artificielle afin de générer un contenu musical cohérent dans le cadre d’une performance musicale temps-réelle. Ce faisant, il permettra l’apprentissage et la reconnaissance des dimensions musicales impliquées dans la conduite de la narration musicale à grande échelle. Cette formalisation trouvera donc également un champ d’application dans les processus de composition en temps différé. Les structures émergentes d'un discours musical construit collectivement constituent un phénomène collectif, et ne se réduisent pas aux structures de jeu individuelles. Afin de représenter l'information musicale de manière pertinente, il semble donc important de développer une écoute basée sur l'information mutuelle entre interprètes, ou couplage, au sein du discours musical [Canonne, 2015]. Par exemple, une piste envisagée repose sur l'utilisation des mécanismes d'attention croisée pour apprendre des représentations d'interactions entre les différents acteurs du discours musical. La thèse sera en particulier focalisée sur la réalisation d’un module d’écoute neuronal conférant aux agents la capacité de repérer quelle est la topologie d'évènements saillants ou pivots, et les dimensions audios pertinentes à écouter dans un signal avec lequel l’agent interagit, ainsi que les modalités de leurs évolutions. Il s'agira en effet finalement de combiner les différentes représentations dans une architecture commune pour son intégration dans un module d'écoute réactive. Dans un contexte d’interaction, les représentations apprises devront ainsi améliorer la prise de décision d’un agent génératif, en permettant par exemple de contrôler la corrélation entre ce qui est perçu et ce qui est joué par l’agent, ou encore de déterminer les points de rupture dans le discours musical. Enfin, les modèles de structures musicales appris pour construire ce module d’écoute seront également mis à profit dans des processus de composition en temps différé.

Résumé dans une autre langue: The question of artificial listening is central to research on human-machine co-creativity. Recent developments in this field have given rise to numerous models of generative agents capable of integrating into the production of a collective musical discourse within the perimeter of an established "role" (a trivial example being "soloist" or "accompanist"). The definition of the mechanisms governing the contribution of an agent to this discourse associates : -- A musical memory (a generative model built on a musical database) -- An established action/reaction behavior (symbolic-symbolic processing, and symbolic-acoustic conversion) translating specifications coming from a user or a perception module into "intentions": requests to the music memory model whose execution generates the agent's contributions to the musical discourse. -- A perception (acoustic-symbolic conversion) of a musical stream operated by a listening machine. This transdisciplinary thesis topic is at the crossroads of artificial intelligence, signal and information processing, and computational creativity with applications to automatic music generation and computational musicology. This project will seek to create a reactive listening machine capable of reconciling the two aspects of artificial intelligence in order to generate coherent musical content in the context of a real-time musical performance. In doing so, it will allow the learning and recognition of the musical dimensions involved in the conduct of large-scale musical narration. This formalization will thus also find a field of application in the processes of composition in delayed time. The emergent structures of a collectively constructed musical discourse constitute a collective phenomenon, and cannot be reduced to individual playing structures. In order to represent musical information in a relevant way, it therefore seems important to develop listening based on mutual information between performers, or coupling, within the musical discourse [Canonne, 2015]. For example, one avenue considered relies on the use of cross-attention mechanisms to learn representations of interactions between different actors in musical discourse. In particular, the thesis will focus on the realization of a neural listening module giving agents the ability to identify the topology of salient or pivotal events, and the relevant auditory dimensions to be listened to in a signal with which the agent interacts, as well as the modalities of their evolutions. The final goal is to combine the different representations in a common architecture for its integration in a reactive listening module. In an interaction context, the learned representations will have to improve the decision making of a generative agent, by allowing for example to control the correlation between what is perceived and what is played by the agent, or to determine the breaking points in the musical discourse. Finally, the models of musical structures learned to build this listening module will also be put to good use in time-shifted composition processes.