Projet de recherche doctoral numero :4025

Description

Date depot: 1 janvier 1900
Titre: Apprentissage de représentations visuelles
Directeur de thèse: Matthieu CORD (ISIR (EDITE))
Directeur de thèse: Nicolas THOME (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Cette proposition de thèse s'inscrit dans le domaine de la classification ou annotation sémantique d'images. Cette thématique consiste à prédire une catégorie sémantique (objet, scène, ou concept plus abstrait) à partir de représentations visuelles extraites des données. La mise en place de systèmes d'annotation sémantique d'images efficaces et robustes ouvre la voie à de très nombreuses applications critiques en vision artificielle. La dernière décennie a connu l'hégémonie des techniques de type 'sac de mots', 'Bag of Words' (BoW)[Sivic03], intensivement utilisées dans la communauté vision par ordinateur (computer vision). Le succès du modèle BoW est dû à l'utilisation de descripteurs locaux très discriminants comme les descripteurs SIFT, et à la redescription de l'ensemble des descripteurs d'une image en utilisant les techniques issues de l'indexation textuelle. L'équipe MLIA possède une expertise reconnue pour les méthodes de représentation BoW, et a participé récemment à l'amélioration du modèle historique [Sivic03]. Malgré son très large succès ces dix dernières années, le modèle BoW présente néanmoins un certain nombre de limites méthodologiques intrinsèques : d'une part, il correspond à une architecture très peu hiérarchique, d'autre part, le niveau d'apprentissage dans la représentation en entrée des outils de classification est très limité. Les méthodes d'apprentissage profond ('deep learning') constituent une alternative très intéressante pour aborder le problème de l'annotation sémantique d'images. Une propriété essentielle de ces approches a trait à leur capacité à apprendre les représentations elles-mêmes à partir des données. Le deep learning connaît actuellement un regain d'intérêt exceptionnel ( large succès remporté par des réseaux de neurones convolutifs sur la base ImageNet [krizhevsky-12]. L'équipe MLIA a participé récemment à la proposition de nouveaux modèles pour apprendre des architectures profondes pour des problèmes d'annotation sémantique, notamment à travers la mise en place de nouvelles méthodes non supervisées.

Doctorant.e: Wang Xin