Projet de recherche doctoral numero :3170

Description

Date depot: 1 janvier 1900
Titre: Représentations redondantes et hiérarchiques pour l'archivage et la représentation de scènes sonores
Directeur de thèse: Gael RICHARD (LTCI (IP PARIS))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Les archives sonores se développent à grande vitesse, qu'elles soient dans le cadre d'une collection de musique personnelle, des archives à vocation de recherche (BNF, laboratoires, Radio France, ...) ou de valorisation grand public (INA, ...). Améliorer l'accessibilité au contenu malgré l'explosion de la taille de ces archives représente actuellement un enjeu majeur du domaine des technologies de l'information. Cette explosion du volume de données est encore amplifiée par le passage rapide d'un monde numérique en 2D (associé à un son monophonique voire stéréophonique) à des mondes virtuels en 3D avec représentation du son sur de nombreux canaux (par exemple en 5.1, 6.1 etc….) voire de multiples enregistrements de qualité variable d’une même scène sonore ce qui est de plus en plus courant sur les sites de diffusion tel que YouTube. Parallèlement, l’émergence de nouveaux concepts tels que l’écoute active (Active listening) qui autorise un auditeur à faire varier le rendu sonore d’un titre musical à chaque écoute appelle une nouvelle réflexion sur la description et la représentation des scènes sonores comme celui proposé par la société MXP4 [MXP4]. Le sujet principal de cette thèse est ainsi de chercher sous quelles formes les données sonores devraient idéalement être représentées dans ces archives. On souhaite en effet pour ces archives des propriétés qui peuvent sembler contradictoires, d'être à la fois d'une grande précision (archivage sans perte par rapport à la source) mais aussi facilement consultables à travers des réseaux hétérogènes. On cherche aussi à mettre en relation étroite des informations de type métadonnées afin de faciliter la recherche automatique et la structuration du contenu. Ces métadonnées peuvent être de hauts niveaux, globaux ou locaux sur le signal, mais aussi de bas niveau, extraites directement du contenu (par exemple l'identification automatique de passages répétés plus ou moins exactement). Le cadre des représentations parcimonieuses fournit une approche particulièrement pertinente pour rassembler tous ces points de vue (voir par exemple [BEN01] [WG03] [GB03] [DAU06]). Lors d'une thèse précédente (Emmanuel Ravelli 2005-2008, co-dirigée par G. Richard Télécom ParisTech / L. Daudet UPMC), nous avons montré que, dans le cadre de la compression audio bas débit, ce type de décompositions nous permettait d'obtenir des représentations très compactes (comparables voire meilleures que l'algorithme de référence MPEG-AAC) mais surtout progressives : l'information sonore ainsi hiérarchisée permet d'effectuer très efficacement diverses tâches d'indexation automatique [RAV08,RAV09]. Les représentations parcimonieuses ont également été utilisées avec succès en séparation de sources puisque par essence elles visent à représenter un signal par une somme de composantes ou atomes qui peuvent être dans certains cas directement reliés aux sources sonores (voir par exemple l’utilisation de l’analyse en sous-espaces indépendants pour le regroupement des atomes [CW00], l’utilisation du regroupement pour l’estimation de la matrice de mélange [WKS07] ou encore l’exploitation de dictionnaires adaptés aux instruments à séparer [LEV08]). Le principal but de ce travail est de généraliser l’étude précédente de recherche d'informations dans le domaine compressé (c'est-à-dire sans avoir recours à une décompression du signal), tout en la plaçant dans le contexte différent des archives sonores et en intégrant le caractère spatial des sources sonores. Ceci permet de lever deux contraintes fortes par rapport à la compression audio : tout d'abord, le critère principal n'est pas nécessairement la recherche du débit le plus faible possible (l'accessibilité des données étant prépondérante). Enfin, il n'y a plus nécessairement les contraintes de temps réel et/ou de causalité : tous les traitements peuvent être effectués off-line, d'une manière globale sur l'ensemble de la base, et des traitements de forte complexité peuvent être envisagés. Enfin, on se posera la question de fusionner les données haut-niveau et le signal lui-même, par exemple en exploitant une séparation de sources informée exploitant des connaissances sur le signal audio lui-même (dans le cas d’une scène sonore, cette information peut-être par exemple celle de la position des sources). ===Bibliographie restreinte *[BEN01] L. Benaroya. Représentations parcimonieuses pour la séparation de sources avec un seul capteur. In GRETSI, 2001. *[DAU06] L. Daudet. Sparse and structured decompositions of signals with the molecular matching pursuit. IEEE Trans. Audio, Speech and Language Proc., 14(5), 2006. *[GB03] R. Gribonval and E. Bacry. Harmonic decomposition of audio signals with matching pursuit. IEEE Trans. Signal Proc, 51(1) :101–112, 2003. *[LEV08] P. Leveau, E. Vincent, G. Richard, L. Daudet, Instrument-Specific Harmonic Atoms for Mid-Level Music Representation, IEEE Transactions on Audio, Speech and Langua

Doctorant.e: Moussallam Manuel