Projet de recherche doctoral numero :3463

Description

Date depot: 1 janvier 1900
Titre: Co-apprentissage statistique interactif de classes sémantiques pour l'interprétation d'images satellitaires et de vidéos
Directeur de thèse: Michel CRUCIANU (CEDRIC)
Encadrant : Marin FERECATU (CEDRIC)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Introduction et motivation L'augmentation du volume des bases d'images (multimédia et spécialisées) a créé une forte demande d'outils d'indexation automatique et de recherche des images. Les applications touchent une partie importante des activités humaines : depuis les producteurs de contenus (chaînes télé, production cinéma), imagerie satellite, géo-localisation, imagerie médicale, jusqu'aux modèles de distribution et partage par Internet des contenus multimédia et sites communautaires. D'un côté, l'annotation manuelle est coûteuse et subjective. De l'autre, spécifier une requête dans la base en termes de descripteurs extraits des images (forme, texture, couleur) est hasardeux à cause du 'fossé sémantique' qui les sépare des concepts utilisateur. Au lieu de cela, la plupart des systèmes de recherche par le contenu mettent à disposition de l'utilisateur un mécanisme de bouclage de pertinence (relevance feedback) où l'utilisateur renvoie à la machine une information sur la pertinence des images trouvées à chaque requête [Crucianu 08]. Grâce à ce système, la machine est capable d'apprendre une requête spécifique de l'utilisateur et, au bout de plusieurs itérations, de lui retourner les images qu'il souhaite. Les deux objectifs de l'apprentissage actif sont, d'une part, d'apprendre avec le plus de précision possible le concept ciblé par l'utilisateur et d'autre part, de le faire le plus rapidement possible avec un effort minimal de la part de l'utilisateur [Lew 06]. État de l'art, description et positionnement du sujet La plupart des machines de recherche d'images reposent aujourd'hui sur des algorithmes d'apprentissage statistique. Dans ce contexte, cette thèse se propose d'investiguer une direction complémentaire aux approches standard, et qui commence a attirer beaucoup d'attention : le coapprentissage (co-learning) et l'apprentissage avec un contexte (context learning). Il s'agit de l'apprentissage simultané de plusieurs concepts avec l'idée de rechercher les co-occurrences des objets, ce qui permet de dépasser le cadre d'une simple classification en fonction des caractéristiques de l'image. Cela renforce la pertinence de la classification (exemple : bateau et mer, route et véhicule) et permet d'élaborer des concepts complexes (exemple : colonne de véhicules = plusieurs véhicules consécutifs). En effet, on s'attend à ce que certains objets se retrouvent souvent ensemble : cette corrélation génère un contexte particulier qui permet de mettre en place des modèles plus discriminants. Les travaux déjà existants dans cette direction se focalisent dans plusieurs directions: apprentissage mixte sur les modèles hiérarchiques (joint learning) [Gao 08], l'intégration des connaissances préalables sur les parties d'objet et de leur emplacement pour améliorer la classification [Li 05] et l'exploitation du contexte spatial des objets [Sudderth 05], l'apprentissage multi-tâche en utilisant des combinaisons des paires de concepts pour modéliser les similarités entre les entités [Chen 07] et l'utilisation des co-occurrences et des corrélations entre les objets pour la classification des images [Le Saux 05, Galleguillos 08]. L'objectif est d'étudier des modèles basés sur la co-occurrence des objets et leur corrélations dans un contexte Bayésien, par exemple en utilisant des chaînes de Markov, pour exploiter les probabilités conditionnées crées par le contexte spatial des différents objets. Ceci promet de fournir des modèles plus précis sur la présence des différents concepts dans une image, conditionné par une connaissance a priori obtenue de façon supervisée (dans notre cas par la boucle de pertinence). Applications envisagées Ce travail est motivé par deux catégories d'applications. 1. L'annotation automatique, la détection et la reconnaissance de classes d'objets en imagerie satellitaire : grâce aux capteurs de haute résolution actuels, les images satellite récentes ont un riche contenu sémantique, contenu qui n'est pas facile à décrire en termes des descripteurs bas niveau et qui nécessite souvent l'emploi des méthodes sophistiquées d'apprentissage interactif [Lew 06, Blanchart 11]. 2. L'analyse des flux vidéo, plus spécialement pour la vidéosurveillance. Le contexte est ici plus difficile, car les types d'annotations possibles sont plus variés (personnes, objets, évènements) et peuvent s'appliquer à des segments complexes (régions d'image, images, plans, séquences). Dans ces deux cadres applicatifs, nous espérons que la méthode abordée dans cette thèse combinera des algorithmes d'apprentissage de haute performance avec la supervision itérative de l'utilisateur, ce qui permettra la validation et le raffinement incrémental des modèles statistiques. Bibliographie [Lew 06] M. Lew, N. Sebe, C. Djeraba, and R. Jain. « Content-based multimedia information retrieval: State-of-the-art and challenges ». ACM Transactions on Multimedia Computing, Communication, and Applications, 2(1) :1–19, 2006. [Cruc

Doctorant.e: Randrianarivo Hicham