Description
Date depot: 16 juin 2023
Titre: Exploration des synergies entre différentes tâches s’appuyant sur l’imagerie de télédétection multimodale et le texte pour un accès facilité à l’information
Directeur de thèse:
Laurent WENDLING (LIPADE)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Images et vision
Resumé: Les images de télédétection, produites en grandes quantités, contiennent des informations qui sont déjà utilisées pour suivre le changement climatique, améliorer la sécurité et comprendre l'environnement. Ces données sont cependant difficiles à interpréter et impliquent souvent un traitement manuel. Avec l'augmentation de la quantité de données, l'interprétation devient un facteur limitant pour les délais, mais aussi pour les domaines dans lesquels celles-ci peuvent être utilisées. Alors que les données sont là, un large public ne peut en tirer parti. Dans ce projet, nous voulons faciliter l'accès aux informations contenues dans les données multimodales à un nouveau publique.
Pour ce faire, nous proposons d'utiliser le langage naturel comme moyen d'extraire ces informations.
Ce projet est financé par l’ANR JCJC TAMMI (https://tammi.sylvainlobry.com).
La direction de la thèse sera assurée par Laurent Wendling (LIPADE - Équipe SIP), et sera co-encadrée par Camille Kurtz (LIPADE – Équipe SIP) et Sylvain Lobry (LIPADE – Équipe SIP).
L’approche adoptée par le projet est générique : les représentations des données ne seront pas apprises pour une tâche spécifique. Pour cela, une nouvelle base de données sera créée, visant des tâches diverses telles que la réponse automatique à des questions, les requête d’images en langage nature et la description de scène. Nous étudierons des représentations partagées de données multi-modales, multi-temporelles et multi-résolution et la robustesse aux données manquantes.
Résumé dans une autre langue: Remote sensing images, produced in large quantities, contain information that is already being used to monitor climate change, improve safety and understand the environment. However, these data are difficult to interpret and often require manual processing. As the amount of data increases, interpretation becomes a limiting factor not only in terms of time, but also in terms of the areas in which it can be used. While the data is there, a wide audience can't take advantage of it. In this project, we aim to facilitate access to the information contained in multimodal data for a new audience.
To do this, we propose to use natural language as a means of extracting this information.
This project is funded by the ANR JCJC TAMMI (https://tammi.sylvainlobry.com).
Translated with www.DeepL.com/Translator (free version)
Doctorant.e: Boussaid Hichem