Projet de recherche doctoral numero :3265

Description

Date depot: 1 janvier 1900
Titre: Identification Audio par le contenu
Directeur de thèse: Gael RICHARD (LTCI (IP PARIS))
Directeur de thèse: Yves GRENIER (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Cadre général L'identification Audio par le contenu (ou encore communément appelée 'fingerprinting Audio' ) vise à identifier automatiquement un extrait audio (c'est à dire obtenir des métadonnées telles que le nom de l'artiste et le titre de la chanson dans le cas de la musique en utilisant uniquement le signal audio). Ce problème a déjà reçu un grand intérêt de la communauté en raison de son rôle clé dans de nombreuses applications telles que l'identification de chansons à travers le réseau mobile, le monitoring des flux radiophoniques, la détection de Jingle, le contrôle de copyright voire même l'analyse de qualité de signaux audio. Le principe général d'un système d'identification audio repose sur l'extraction d'une signature (ou 'empreinte') pour chaque document ou partie de document repertorié dans une base de référence. Un extrait audio inconnu est alors identifié en comparant son empreinte à celles de la base de référence. Les principaux enjeux pour un système d'identification audio est de parvenir à identifier un extrait audio qu'elle que soient les perturbations subies par le signal (compression, réverbération, bruit,...) tout en étant faiblement complexe pour permettre de fonctionner sur de très grandes bases. Plusieurs approches d'identification existent déjà (voir cite{cano05} pour une revue de méthodes). Dans la plupart des cas, l'empreinte repose sur une information spectro-temporelle et en particulier sur une analyse de l'énergie dans des sous-bandes fréquentielles (utilisation de la modulation du flux d'énergie, des amplitudes spectrales, ou du signe des différences d'énergies). D'autres auteurs ont proposé des représentations plus spécifiques basées sur les descripteurs MPEG-7 ou sur la position des attaques de composantes sinusoidales comme dans la solution de Shazam. La plupart de ces approaches obtiennent d'excellent scores d'identification pouvant cependant se degrader dans des conditions difficiles (réverbération, bruit, changement de vitesse de lecture...). Aussi, la robustesse est souvent obtenue en allongeant la durée de la signature rendant difficile l'identification de segments courts (e.g. inférieur à 4s). C'est principalement cet aspect qui a motivé l'introduction d'approaches exclusivement basées sur l'information fréquentielle qui permettent d'obtenir d'excellentes performances pour des signatures courtes (e.g. de l'ordre de $1s$) pour les signaux comportant des composantes sinusoidales. Cependant de telles methodes sont relativement complexes et ne sont pas robustes aux changements de vitesse même si des solutions à ces problèmes ont été récemment proposées. Si un effort particulier a été placé dans le passé sur l'étude de descripteurs robustes aux distorsions, certaines études se sont focalisées sur la modélisation statistique des empreintes et la recherche de distance appropriées pour la comparaison. C'est un axe qui reste assez peu développé dans la littérature et que nous souhaitons poursuivre dans cette thèse. Le sujet de thèse propose d'étudier plusieurs aspects afin de parvenir à un système performant pour des signatures de courtes durée (de l'ordre de 1s), dans des rapports Signal-à-Bruit pouvant être très défavorables (e.g. pour l'identification de musique de fond qui reste un problème pour lequel il n'existe pas de solutions) et permettant de repérer dans un flux audio inconnu des éléments récurrents pour la generation automatique de signatures de référence. Il est prévu d'orienter ainsi le travail sur plusieurs axes: approche probabiliste, approche par modèles de signaux, recherche efficace de signatures pour le passage à l'échelle.

Doctorant.e: Fenet Sebastien