Projet de recherche doctoral numero :8311

Description

Date depot: 11 avril 2022
Titre: Fusion multi-niveaux pour la réponse automatique à des questions visuelles sur des images de télédétection
Directeur de thèse: Laurent WENDLING (LIPADE)
Encadrant : Sylvain LOBRY (LIPADE)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Images et vision

Resumé: De grandes quantités d'images de télédétections sont aujourd'hui facilement accessibles grâce aux efforts venant des secteurs public et privé. Un exemple fort sont les satellites Sentinel lancés depuis 2014 dans le cadre du programme Copernicus de l'Union Européenne. Cette mission offre un accès libre à des images de natures différentes (multi-spectral et radar notamment) avec une grande couverture spatiale et un temps de revisite court. Cependant, il peut être difficile d’extraire de l’information des images de télédétection. Cette interpretation est générallement faite par des experts, et implique souvent un travail manuel, qui devient un facteur limitant avec l'augmentation de la quantité de données produites. Ainsi, des méthodes automatiques ont été développées pour des applications d'intérêt général (par exemple: le suivi des feux de forêts) ou présentant un intérêt financier. Cependant, les informations contenues dans ces images peuvent être d'intérêt pour un publique bien plus large. Par exemple, les journalistes pourraient suivre d'une manière indépendante les guerres ou les effets du déréglement climatique. Les administrations locales pourraient utiliser cette information dans la prise de décision. Enfin, les citoyens sont aussi intéressés par leur environnement, comme le montre le succès d'initiatives telles que OpenStreetMap ou Google StreetView. Alors que les données sont là, le grand public n'a pas la compétence pour en extraire une information utile. Notre objectif est donc de permettre l'extraction d'information via des modèles permettant de répondre automatiquement à des questions posées (en langage naturel) à propos d’un ensemble d’images de télédétection (de différentes modalités). Cette tâche de visual question answering (VQA) a été récemment proposée dans la communauté de la vision par ordinateur [1] et pour la télédétection [2]. Dans cette thèse nous nous intéresserons aux opérations permettant la fusion des caractéristiques extraites de la question, et celles des images de différentes modalités. L’objectif sera de proposer de nouvelles méthodes permettant de prendre en compte les différents niveaux d’information contenus dans les différentes modalités en lien avec la requête en langage naturel. L’encadrement se fera conjointement avec Sylvain Lobry (LIPADE – Équipe SIP) et pourra faire l’objet de collaborations et de visites avec d’autres équipes de recherche à l’internationale travaillant sur ce sujet.

Résumé dans une autre langue: Large amounts of remote sensing images are now readily available thanks to efforts coming from the public and private sectors. A strong example are the Sentinel satellites launched since 2014 as part of the European Union's Copernicus program. This mission offers free access to images of different natures (multi-spectral and radar in particular) with a large spatial coverage and a short revisit time. However, it can be difficult to extract information from remote sensing images. This interpretation is usually done by experts, and often involves manual processing, which becomes a limiting factor as the amount of data produced increases. Thus, automatic methods have been developed for applications of general interest (e.g. monitoring forest fires) or of financial interest. However, the information contained in these images can be of interest to a much wider audience. For example, journalists could independently monitor wars or the effects of climate change. Local governments could use this information in decision making. Finally, citizens are also interested in their environment, as shown by the success of initiatives such as OpenStreetMap or Google StreetView. While the data is there, the general public does not have the skills to extract useful information from it. Our goal is therefore to enable information extraction via models that automatically answer questions asked (in natural language) about a set of remote sensing images (of different modalities). This visual question answering (VQA) task has been recently proposed in the computer vision community and for remote sensing. In this thesis, we will focus on operations allowing the fusion of features extracted from the question, and those from images of different modalities. The objective will be to propose new methods to take into account the different levels of information contained in the different modalities in relation to the natural language query. The supervision will be done jointly with Sylvain Lobry (LIPADE - SIP team) and may involve collaborations and visits with other international research teams working on this topic.