Projet de recherche doctoral numero :3959

Description

Date depot: 1 janvier 1900
Titre: Methodes hybrides et multimodales pour l'interpretation automatique de scenes urbaines
Directeur de thèse: Titus ZAHARIA (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Cette thèse traite de l’interprétation automatique de scènes urbaines complexes acquises en imagerie à la fois standard et en profondeur (e.g., Kinnect), hybridant des méthodes de vision par ordinateur, d’apprentissage/classification statistique et d’indexation multimédia. L’objectif est d’élaborer, tester et valider un modèle multi-modal et personnalisé de méta-données, intégrant éléments d’information visuels, contextuels, de profil utilisateur et de géo-localisation, pouvant être enrichi à la volée et de manière partagée au sein de communautés. En ce qui concerne les techniques de vision par ordinateur, des méthodes d’analyse/interprétation de mouvement ainsi que de détection d’objets saillants, susceptibles d’être porteurs d’une information sémantique seront investiguées. Les éléments/objets d’intérêt détectés seront ensuite décrits d’une manière multi-modale. Dans ce cadre, les méthodes d’apprentissage statistique à base de divers points d’intérêt/descripteurs (e.g.., SIFT, SURF, FRISK, BRICK, FAST…) associés ont connu récemment une large popularité en raison de leurs performances prometteuses en termes de pouvoir de discrimination. Plusieurs enjeux méthodologiques restent pourtant à résoudre et concernent les tailles de vocabulaires notamment utilisés pour les modèles de type Bag of Word/Bag of regions, l’intégration de l’information de localisation spatiale et spatio-temporelle, indispensable pour augmenter les performances des systèmes, l’hybridation des méthodes par points d’intérêt et des approches par régions, l’intégration dans le processus d’une information contextuelle… Ces aspects seront étudiés en détail dans ce travail de thèse. En outre, une utilisation conjointe de ces méthodes d’apprentissage avec les techniques de vision par ordinateur sera étudiée, afin de pouvoir intégrer dans le processus d’analyse des contenus visuels une information a priori forte, pouvant guider efficacement le processus de détection/reconnaissance d’objets. Pour arriver à une description complète et multi-modale, des méthodes d’indexation multi-média seront exploitées. Cela implique notamment la construction d’une ontologie visuelle, pour gérer les relations complexes entre objets et augmenter ainsi la fiabilité des algorithmes proposés. Les aspects d’extraction automatiques d’objets d’intérêt, des méta-données associées ainsi que les algorithmes d’appariement et de requête nécessaires seront au cœur des développements méthodologique de cette thèse. Cela s’appuiera sur les paradigmes émergents d’extension de requêtes, qui permettent de réduire efficacement le gap sémantique entre descriptions visuelles et textuelles. Les données grand public aujourd’hui disponibles sur Internet dans des bases de données images ou vidéos seront utilisées pour atteindre ces objectifs. Enfin, un dernier volet de ce travail de recherche concernera l’élaboration de méthodes adaptées et non-invasives de restitution de l’information à l’utilisateur. Les applications concernées concernent les paradigmes de navigation enrichie et/ou assistée en milieu urbain, pour des cas d’usage aussi bien grand public (dans le cadre d’application de ville intelligente) que spécifiques (comme le cas des outils dédiés aux aveugles et malvoyants).

Doctorant.e: Hascoet Nicolas