Projet de recherche doctoral numero :8129

Description

Date depot: 6 avril 2021
Titre: Modélisation et apprentissage profond de relations spatiales quantitatives pour l’interprétation sémantique de scènes
Directeur de thèse: Laurent WENDLING (LIPADE)
Directeur de thèse: Camille KURTZ (LIPADE)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Images et vision

Resumé: L'équipe Systèmes Intelligents de Perception (SIP) du LIPADE est spécialisée dans l’analyse d’images fortement sémantiques, pour la résolution de problèmes autour du bio-médical, de la télédétection et de l’analyse de documents. Retrouver la structure sous-jacente de ces images par le biais d’indices (pouvant être complexes) et modéliser les éventuelles interactions entre ceux-ci est fondamental pour extraire les connaissances en vue d’une interprétation. Les principaux travaux s’articulent essentiellement autour de trois axes de recherche allant de l’analyse et la description de l’image aux modèles de représentation vers l’intégration de connaissances. Dans de nombreux domaines, les quantités d’images et de vidéos acquises deviennent de plus en plus importantes, formant de véritables masses de données. Face à la grande complexité de ces dernières, les approches automatiques de traitement et d'analyse d'images, purement fondées sur des caractéristiques bas-niveaux extraites du contenu des images, montrent leurs limites et peuvent produire des résultats qui parfois ne sont pas suffisamment pertinents pour les besoins applicatifs de l’utilisateur. De nombreuses méthodes de reconnaissance des formes sont fondées, par exemple, sur le calcul de descripteurs de formes sur des régions extraites à partir d’une phase de segmentation issue ou non d’un apprentissage. Si les approches classiques, maintenant largement fondées sur des caractéristiques convolutionnelles apprises via une architecture neuronale, permettent d’obtenir des résultats satisfaisants dans de nombreuses situations, elles négligent la structure spatiale et son évolution temporelle, décrite par les objets de la scène. Il existe en particulier des familles d’approches globales qui associent à la forme un vecteur de caractéristiques mais elles ne prennent généralement pas en compte les disparités de cette dernière. Ceci permet d’intégrer plus facilement l’aspect spatial mais les approches sont souvent sensibles au bruit et requièrent des simplifications grossières et/ou une phase d’appariement coûteuse en temps lors de la mise en correspondance. Dans le contexte de ce projet de thèse (voir descriptif détaillé) de doctorat en Informatique, nous proposons d’explorer et de définir de nouvelles représentations composites qui intègrent des familles de descriptions spatiales complexes entre couples de régions (et interne à chaque région) et d’étudier la possibilité d’intégrer celles-ci dans des approches fondées sur les Graph-CNN pour garantir une représentation plus fine des scènes considérées. L'encadrement se fera conjointement avec Camille Kurtz et Sylvain Lobry (LIPADE - équipe SIP).

Résumé dans une autre langue: The Intelligent Perception Systems (SIP-LIPADE) team develops a priority axis on image analysis and interpretation with a specific focus on visual perception for computer around three main themes: biomedical, remote sensing and document analysis. The goal is to develop methods from pattern recognition, image analysis and artificial intelligence theory to provide functional and original solutions to different problems related to visual perception. By using a large amount of data, automatic approaches to image processing and analysis, which rely mainly on low-level features extracted from the content of images, show their limits and can produce results that are sometimes inconsistent and non-interpretable. Many pattern recognition methods are based, for example, on the calculation of pattern descriptors on regions extracted from a segmentation phase achieved or not from a learning step. Although the classical approaches, now largely based on convolutional features learned thanks to the neuronal architecture, allow to obtain satisfactory results in many situations, they fail to efficient handle the spatial structure and its temporal evolution, described by the objects of the scene. There are in particular families of global approaches which associate a vector of features with the shape, but they generally do not take into account their disparities. This facilitates the handling of the spatial description, but the approaches are often sensitive to noise and require rough simplifications during the matching step. In the context of this doctoral thesis project (see detailed description) in Computer Science, we propose to explore and define new composite representations that integrate families of complex spatial descriptions between pairs of regions (and internal to each region) and to study the possibility of integrating these into approaches based on Graph-CNN to guarantee a finer representation of the scenes considered. The supervision will be done jointly with Camille Kurtz and Sylvain Lobry (LIPADE - SIP team).