Projet de recherche doctoral numero :8461

Description

Date depot: 13 mars 2023
Titre: Couplage d’informations sémantiques et spatiales pour guider l'apprentissage de représentations d’images via des modèles neuronaux
Directeur de thèse: Camille KURTZ (LIPADE)
Directeur de thèse: Laurent WENDLING (LIPADE)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Images et vision

Resumé: Ce PRD est ancré dans le domaine de la vision par ordinateur et plus précisément la reconnaissance des formes. Analyser et interpréter une image numérique est une tâche qui consiste à extraire des informations visuelles à partir de son contenu au moyen d'algorithmes et de méthodes informatiques. Le fil conducteur de ce PRD repose sur la définition de représentations d'images de plus haut niveau, plus proches de la sémantique et du raisonnement humain. Les représentations d'images sont une des clés essentielles de la vision artificielle car elles permettent, à travers de nouveaux espaces de représentation des données visuelles, d'améliorer la capacité des algorithmes à raisonner pour différentes tâches de traitement et d'analyse (e.g. segmentation, reconnaissance, classification), avec comme objectif ultime de réduire le fossé sémantique entre les caractéristiques de bas niveau extraites des pixels et la perception humaine du contenu imagé. Nous abordons ici cette question principalement sous l’angle de la recherche d'images similaires par le contenu (CBIR), où l’on dispose d’une image « requête » et l’on souhaite interroger le contenu d’une base de données pour retrouver des images comportant des caractéristiques visuelles communes. Si les approches classiques, maintenant largement fondées sur l’optimisation de réseaux de neurones convolutionnels (CNNs) [Dub22], permettent d’obtenir des résultats à l’état de l’art dans différentes situations, elles souffrent néanmoins de certaines limites, en particulier lors de l’analyse de scènes complexes (e.g. composées d’objets multiples et portant une sémantique riche), pouvant conduire à des résultats qui ne sont pas toujours pertinents pour les besoins applicatifs de l’utilisateur (problème de l’intention gap). Ces limites sont principalement dues aux stratégies employées pour optimiser les modèles neuronaux, qui conduisent à des représentations ne prenant pas suffisamment en compte la richesse de la structure spatiale et de la sémantique des objets composant la scène. Souvent fortement supervisée (comme l'apprentissage d'un modèle neuronal pour une tâche de catégorisation), ces approches nécessitent par ailleurs pour l'entraînement une masse importante d'images annotées afin d'apprendre un modèle généralisable. Dans ce PRD (voir descriptif détaillé), nous proposons (1) d’explorer et de définir de nouvelles stratégies pour apprendre des représentations composites qui intègrent des informations de descriptions spatiales complexes entre couples de régions (et interne à chaque région) et (2) d’étudier la manière d’intégrer des informations sémantiques a priori (issues par exemple d’ontologies) pour contrôler plus finement l’optimisation des représentations issues des CNNs, conduisant à des descriptions plus fines des scènes considérées.

Résumé dans une autre langue: This PRD is rooted in the field of computer vision and more specifically pattern recognition. Analyzing and interpreting a digital image is the task of extracting visual information from its content using computer algorithms and methods. The common thread of this PRD is based on the definition of higher level image representations, closer to semantics and human reasoning. Image representations are one of the essential keys of artificial vision because they allow, through new visual data representation spaces, to improve the ability of algorithms to reason for different processing and analysis tasks (e.g. segmentation, recognition, classification), with the ultimate goal of bridging the semantic gap between low-level features extracted from pixels and human perception of the sensed scene. We approach this issue here primarily from the perspective of content-based similar image search (CBIR), where one has a "query" image and wishes to query the content of a database to find images with common visual characteristics. If the classical approaches, now largely based on the optimization of convolutional neural networks (CNNs) [Dub22], make it possible to obtain state-of-the-art results in different situations, they nevertheless suffer from certain limits, especially when analyzing complex scenes (e.g. composed of multiple objects and carrying rich semantics), which can lead to results that are not always relevant to the application needs of the user (problem of intention gap) . These limits are mainly due to the strategies used to optimize the neural models, which lead to representations that do not sufficiently take into account the richness of the spatial structure and the semantics of the objects composing the scene. Often highly supervised (such as learning a neural model for a categorization task), these approaches also require for training a large mass of annotated images in order to learn a generalizable model. In this PRD (see detailed description), we propose (1) to explore and define new strategies for learning composite representations that integrate information from complex spatial descriptions between pairs of regions (and internal to each region) and (2 ) to study how to integrate a priori semantic information (from ontologies, for example) to more finely control the optimization of representations from CNNs, leading to finer descriptions of the scenes considered.



Doctorant.e: Servant Logan