Projet de recherche doctoral numero :4307

Description

Date depot: 1 janvier 1900
Titre: Analyse, transformation et synthèse expressive de sons par représentation source/filtre et systèmes à non-linéarités régulières
Directeur de thèse: Thomas HÉLIE (IRCAM (ED391))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: De nombreux sons résultent de la modification d'une excitation (signal source) par un filtre ou un système faiblement non linéaire. Cette représentation est largement utilisée en traitement du signal pour la voix parlée et chantée [Fan60,Deg10,Dru11a,RS11], la modélisation de la réverbération et d'autres nombreux systèmes audios (égaliseurs, distorsions, effets, etc) [HS08,Hel10]. Plusieurs travaux qui s'appuient sur ce type de représentation ont été menés récemment dans l'UMR9912 à l'IRCAM et ont conduit à des méthodes originales dont la plupart est suffisamment avancée pour être exploitée en pratique. Dans cette thèse, nous proposons d'établir ou de perfectionner des méthodes d'analyse, de transformation et de synthèse de sons qui s'appuient sur ce paradigme standard, dans un cadre linéaire (avec des filtres pouvant varier dans le temps) ou faiblement non linéaire (séries de Volterra [Vol59,Wie42]). On s'intéressera à des approches paramétriques (un modèle structuré est connu, hérité de la physique ou non) avec analyse de sensibilité, et des approches non paramétriques (boîte noire). Dans le cadre linéaire, on s'intéressera d'abord à la séparation source/filtre. En particulier, on cherchera à proposer des évolutions de la méthode à 'cepstre complexe différentiel analytique' récemment introduite dans [Hez13], pour le cas mal posé des signaux périodiques et quasi-périodiques. Des régularisations seront envisagées dans un cadre stochastique bayésien [Id13] et via des fonctions de coût ou des modèles paramétriques structurés. La robustesse sera testée sur des signaux synthétiques maîtrisés et la pertinence pratique sur des bases de données de signaux réels, et ceci par application: voix parlée et chantée (impulsions d'excitation de type CALM [DDH03], filtre causal représentatif du conduit vocal), signaux réverbérés (séparation 'sons secs'/réponse impulsionnelle du médium réverbérant). Des outils d'analyse/transformation/resynthèse seront développés en Matlab. Dans le cadre non linéaire, on s'intéressera à une représentation en série de Volterra et à l'estimation des noyaux de cette série, dans un domaine de validité maîtrisé [HL11]. Cette fois-ci, il ne s'agit plus de séparer une source d'un filtre mais une source d'une structure à mémoire organisée par ordre homogène de non-linéarité [GK91]. Une technique classiquement employée en audio repose sur une structure dite 'en cascade de modèles de Hammerstein': l'entrée est élevée à une puissance k, pour chaque k, chaque signal est modifié par un filtre linéaire associé, on somme ensuite l'ensemble des sorties. La raison est que pour cette structure, on peut montrer que, sous des conditions simples, une excitation particulière permet d'isoler et d'estimer correctement les filtres [RH11]. Malheureusement, cette structure n'est pas celle produite naturellement par les systèmes physiques non linéaires, même les plus simples. On propose ici de s'appuyer sur une structure organisée en une cascade de non-linéarités (homogènes statiques) et des occurrences multiples d'un unique système linéaire: cette structure est celle produite par une grande majorité des systèmes physiques. En pratique, deux méthodes seront déployées. La première s'intéressera à identifier un système réel à partir de mesures pour une excitation à élaborer: le but est de reproduire une version virtuelle, sous forme paramétrique ou non, d'un système audio réel (microphone, pédale de distorsion, etc). La seconde s'intéressera à identifier un couple 'système non linéaire invariant dans le temps' / 'ensemble d'excitations', qui capture au mieux la signature d'un instrument ou d'un système audio, et l'évolution de son timbre avec la nuance. Pour cette seconde méthode, on s'appuiera sur des bases de données d'échantillons sonores indexés, similaires à celle employée dans le travail récent [HR13] qui repose sur des filtres indexés variant dans le temps: on pourra comparer les résultats des deux approches. Enfin, des premiers prototypes simples fonctionnant en temps réel seront implantés, comparés aux méthodes de l'état de l'art, et testés dans un contexte musical.

Doctorant.e: Bouvier Damien