Projet de recherche doctoral numero :3192

Description

Date depot: 1 janvier 1900
Titre: Traitement et extraction des données flux audio à l’aide des méthodes de la géométrie d’information
Directeur de thèse: Carlos AGON (STMS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: L’objectif à long terme de ce projet est de formuler un cadre mathématique formel du traitement et de l’extraction des données sonores, basé d’une part sur la géométrie de l’information, et inspiré d’autre part par les observations, les résultats, les théories et les modèles issus des travaux ayant pour sujet la cognition humaine (psychologie et neuropsychologie). Dans la suite de ce texte, ce dernier point sera simplement désigné par l’expression « données cognitives ». Ce projet a donc deux volets : un volet lié à l’établissement du cadre mathématique, et un volet lié à l’étude des données cognitives qui contraignent et dans une certaine mesure définissent le cadre mathématique. Ce cadre mathématique a pour but d’aborder certains problèmes courants des systèmes computationnels pour le traitement des signaux temporels et en temps réel (flux de données), dont nous décrivons les défis ci-dessous. Les modèles proposés devront en outre être motivés par des données cognitives. Plus précisément, afin de choisir les options les plus pertinentes parmi la variété des théories et modèles cognitifs existants dans la littérature, des expériences avec des sujets humains (psychologie expérimentale) seront menées. Le cadre applicatif de ce projet couvre des systèmes computationnels d’extraction des données musicales, et des systèmes d’informatique musicale en temps réel. Ce projet est une collaboration étroite entre deux équipes portant à la fois sur la modélisation computationnelle et la perception et cognition musicale. En août 1996, lors d’une session spéciale du congrès international d’intelligence artificielle, Rodney A. Brook professeur reconnu du MIT sur la recherche robotique, a remarqué que malgré les avancées de la recherche dans le domaine de la reconnaissance et du traitement de la parole, celle-ci a peu avancé dans la perception artificielle des signaux audio en dehors de la parole (sons naturels, musique, etc.). Il a désigné cette voie de recherche comme l’un des plus grands défis de l’intelligence artificielle. Depuis ce temps, beaucoup de recherches ont porté sur la reconnaissance et le traitement des signaux audio. Il existe aujourd’hui divers systèmes informatiques pour analyser des contenus des signaux musicaux (p. ex. classification des genres musicaux, reconnaissance de structures), ou les paysages sonores (p. ex. discrimination des sons environnementaux), la communication non verbale chez les humaines (p. ex. détection des cris d’enfants dans un environnement sonore, système d’alarme sonore), pour ne citer que quelques exemples. Malgré ces avancées applicatives, les méthodes le plus souvent utilisées pour aborder ces problématiques limitent en pratique l’usage de ces systèmes. Ce déficit est lié d’une part à l’adoption des méthodes traditionnelles du traitement du signal (souvent provenant du traitement de la parole), où la temporalité des signaux est souvent sous-estimée (p. ex. le paradigme commun de « Bag-of-Frames », utilisation des modèles avec des mémoires non variables et à court terme) ; et d’autre part une négligence des données cognitives dans la conception des modèles. Les dernières avancées suggèrent de plus en plus que les méthodes traditionnelles sont limitées à une performance modérée quand elles sont confrontées aux données réelles. La difficulté technique à résoudre est donc la considération directe de la temporalité dynamique des flux sonores dans la conception des systèmes, et un cadre mathématique propre à ce sujet. Depuis un certain temps, nous savons que les auditeurs sont sensibles à la statistique des événements se produisant dans leur environnement sonore. Ceci met en évidence l’importance de l’aspect statistique de l’apprentissage auditif dans la modélisation computationnelle des signaux sonores. C’est bien pour cela qu’aujourd’hui des modèles probabilistes ou basés sur la théorie de l’information sont devenus la norme pour les modèles cognitifs. Plus récemment, des méthodes de la géométrie d’information, telle que celle décrite par Amari en 2000, fournissent un cadre mathématique à l’intersection de la théorie de l’information, de l’apprentissage automatique, et de la géométrie différentielle. Nous avons montré récemment dans nos laboratoires qu’un cadre mathématique du traitement des signaux audio basé sur la géométrie de l’information pourrait aborder le problème de la temporalité variable et dynamique des signaux sonores et fournir des systèmes basiques dont les résultats approchent les performances humaines dans diverses applications. Les portées de ce projet sont donc d’une part une étude théorique profonde de la géométrie d’information des signaux flux sonores (en temps réel) et la formalisation d’une cadre mathématique global pour le traitement et l’extraction des données dans ce contexte, et d’autre part de proposer des modèles computationnels pour ces traitements qui soient basés sur des données cognitives. Grâce à la collaboratio



Doctorant.e: Dessein Arnaud