Projet de recherche doctoral numero :3705

Description

Date depot: 1 janvier 1900
Titre: STRUCTURATION ET RECHERCHE PAR LE CONTENU DANS DES COLLECTIONS VIDEO A PARTIR DE REPRESENTATIONS SCALABLES DU CONTENU
Directeur de thèse: Michel CRUCIANU (CEDRIC)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: L’exploitation de grandes collections vidéo passe par des étapes de description du contenu, de structuration de la collection et de recherche par le contenu. Si les avancées récentes dans ce domaine ont permis d’améliorer de façon sensible l’efficacité de la recherche et, dans une moindre mesure, de la structuration, la description du contenu reste une opération coûteuse et qui exige un traitement exhaustif des vidéos de la collection. Dans la mesure où des formats de représentation scalables sont de plus en plus utilisés pour le stockage des images (par ex. JPEG2000, voir [4], [10], [5], [11]) et de la vidéo (par ex. MJPEG2000), une piste intéressante pour rendre plus efficace l’opération de description du contenu vidéo est d’exploiter directement la représentation scalable, sans décompression préalable. L’objectif de cette thèse est d’abord de proposer des solutions d’indexation de contenu vidéo exploitant au mieux la représentation scalable (sans décompression préalable). Ensuite, à partir des solutions d’indexation proposées, des méthodes de structuration et de recherche efficaces seront mises au point. En effet, une représentation scalable est hiérarchique et doit permettre des opérations de structuration et de recherche efficace de type « coarse to fine ». Dans le domaine de l’indexation basée sur les représentations vidéo scalables les travaux devront poursuivre les directions identifiées à l’issue du stage de Master 2 du doctorant : amélioration du détecteur de points d’intérêt et des descripteurs des points et régions, utilisation de la description issue du codage scalable comme complément de méthodes de description basées sur des histogrammes locaux de gradient. En effet, les sous-bandes haute fréquence dans le domaine de la transformée en ondelettes JPEG2000 portent une information sur les contours et les textures dans l’image d’origine. Par ailleurs, les sous-bandes basse fréquence permettent d’accéder au contenu de la scène à résolution différente et de proposer la description scalable [13]. L’intérêt réside dans la possibilité de regrouper – afin de résumer – ou de rechercher par similarité à des résolutions plus faibles que la vidéo/image d’origine. Des études psychovisuelles montrent effectivement que pour la reconnaissance des objets une description très générale de la scène (GIST) est suffisante [14]. Par ailleurs, une piste intéressante pour la sélection des objets d’intérêt consiste à poursuivre les études de la saillance visuelle toujours dans le cas de représentations scalables [1]. Dans le domaine de la structuration et de la recherche efficace par le contenu, nous envisageons d’aborder deux paradigmes différents, la recherche par l’exemple et la recherche avec contrôle de pertinence. Dans les deux cas, il est important de permettre les requêtes partielles (concernant un segment spatio-temporel d’une vidéo) et d’assurer un passage à l’échelle de la méthode. Nous souhaitons étendre des solutions de type Locality Sensitive Hashing (LSH) dans deux directions : (i) améliorer le compromis entre qualité et efficacité pour les descriptions issues de représentations vidéo scalables et (ii) définir des méthodes adaptées à la recherche avec contrôle de pertinence. Le compromis qualité – efficacité peut être amélioré en adaptant au contenu vidéo les méthodes de hachage multi-niveaux et de résumé local introduites dans [12] pour le contenu audio, ainsi qu’en développant les travaux sur les configurations géométriques (e.g. [2], [9]) aux descripteurs issus de la représentation vidéo scalable. Les mécanismes de contrôle de pertinence performants sont souvent basés sur des méthodes à noyaux et apprentissage actif, mais l’amélioration de leur efficacité s’est montrée peu performante jusqu’ici (voir [6], [8], [7], [3]). Les noyaux étant souvent des mesures de similarité, nous souhaitons développer des solutions inspirées de LSH pour l’identification efficace des échantillons les plus informatifs (opération la plus coûteuse dans le mécanisme de contrôle de pertinence). La réalisation de résumés vidéo peut alors se faire par une première approche de type auto-jointure par similarité (basée sur le mécanisme de recherche par l’exemple) et peut être raffinée par le mécanisme de recherche avec contrôle de pertinence. Le doctorant pourra s’impliquer également dans d’autres travaux menés dans le cadre du projet MEX-CULTURE (ANR Blanc International II France – Mexique, appel 2011) sur la multi-modalité en indexation, recherche et structuration de collections vidéo. Les méthodes mises au point seront évaluées sur différentes collections vidéo disponibles et notamment sur celles du projet MEX-CULTURE. REFERENCES [1] J. Benois-Pineau, F. Precioso, M. Cord (eds) Visual indexing and retrieval. Springer Verlag, 2012, ISBN 978-1-4614-3587-7. [2] Ondrej Chum, Michal Perd’och, and Jiri Matas. Geometric min-hashing: Finding a (thick) needle in a haystack. In CVPR’09: IEEE Computer Society Confe

Doctorant.e: Stoian Andrei