Projet de recherche doctoral numero :8696

Description

Date depot: 4 avril 2024
Titre: Modèles de couplages entre signaux temporels pour le contrôle créatif de la synthèse sonore
Directeur de thèse: Frédéric BEVILACQUA (STMS)
Encadrant : Jérôme NIKA (STMS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Signal et communications

Resumé: L'interaction sonore ou musicale humain–machine nécessite de modéliser la relation entre un flux de contrôle pouvant prendre la forme d’un signal audio ou d’une représentation schématique de ses propriétés et de leurs évolutions dans le temps en entrée, et d’un signal sonore généré en sortie. La modélisation de l’interaction pour des applications créatives invite donc à investiguer 1) des modèles de couplage qui implémentent la relation des flux d’entrée et de sortie audio, soit en les spécifiant explicitement, soit en les apprenant à partir de données; et 2) dans le cas d’interaction audio-audio en temps réel, de spécifier un modèle d’écoute artificielle capable de proposer une représentation intermédiaire des flux, encore une fois soit en spécifiant explicitement les paramètres acoustiques pertinents, soit en faisant émerger ces représentations à partir des données par apprentissage. Les modèles d’interaction de l’état de l'art ne présentent pas de modèle de couplage en tant que modèles de relations. En effet, les modèles de perceptions ou de spécification conditionnent directement la génération en sortie, de manière purement imitative. Un modèle explicite de couplage, intégrant un processus intermédiaire de décision, permettrait d’envisager des scénarios d’interaction plus complexes comme par exemple un dialogue entre deux musicien.ne.s. Ce projet de thèse vise s’appuyer sur la notion de “couplage” en tant que modélisation de relations riches et complexes entre les flux de contrôle et le matériau sonore à synthétiser pour déployer de nouvelles stratégies d’interaction intégrant une étape de décision, par exemple par apprentissage des relations sonores entre interprètes d'une performance pour conditionner la génération par une nouvelle entrée en temps-réel, ou par apprentissage de profils décrivant une évolution acoustique ou subjective d’un matériau sonore pour conditionner la synthèse par un nouveau signal temporel dans un processus offline.