Description
Date depot: 1 janvier 1900
Titre: Structuration multi-échelles automatique et semi-automatique de signaux pour l'exploitation de corpus sonores
Directeur de thèse:
Thierry ARTIÈRES (LIS)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
La facilité de production, de stockage et d’accès aux contenus numériques entraîne une croissance ininterrompue de la masse des enregistrements numériques disponibles, qui représentent aujourd’hui des ressources inépuisables pour la recherche et la création de contenus à condition de disposer d’outils permettant de les maîtriser. Les problématiques afférentes sont liées à l’organisation et l’étiquetage de cette masse de données, ainsi qu'à la production de contenus sonores pour l’industrie et la création multimédia. Cependant, il n’existe actuellement pas de réelles approches transverses entre indexation, reconnaissance, et exploitation des bases de données. La thèse que nous proposons cherche un pont entre ces problématiques. Les applications visées sont la représentation et l’exploration (par exemple par requête) de bases de données, ainsi que la synthèse de sons.
La synthèse sonore par corpus est un candidat prometteur pour la production de contenus à partir de corpus sonores de types très variés, actuellement limité par l’utilisation d’une représentation linéaire des contenus comme séquences de segments. La difficulté est qu’à l’exception de la parole et de certains styles de musique (très structurés), les contenus audio n’obéissent pas à une formalisation grammaticale évidente (phonèmes, notes, etc). Cette thèse vise à étendre les travaux sur la découverte et la segmentation automatique de contenus sonores, nombreux mais restreints car appliqués à certains types de contenus (e.g. parole). La problématique correspondante concerne la découverte d’une représentation multi-niveaux d’une information de type signal, dans le cas où les entités élémentaires composant les signaux ne sont pas connues a priori. Cette information doit être inférée à partir des données, ce qui tisse des liens étroits avec l’apprentissage de la structure de modèles de séquences, problème largement ouvert aujourd’hui.
Un premier objectif est de développer des approches pour la découverte automatique d’éléments constitutifs d’un corpus de données séquentielles, basées sur l’apprentissage de la structure de modèles Markoviens. On s’intéressera en particulier à l’utilisation de modèles semi-Markoviens ou segmentaux. Afin de concevoir des outils génériques capables de s’adapter à différents types de corpus, et prendre en compte la qualité subjective intrinsèque à certaines applications prévues (production de bruitages, de textures sonores, etc), ces approches seront déclinées en des versions actives ou interactives. L’information de structure obtenue lors de la segmentation sera par ailleurs utilisée pour étudier l’articulation du flux audio, en vue d’orienter les applications de resynthèse.
Doctorant.e: Lallemand Ianis