Projet de recherche doctoral numero :7811

Description

Date depot: 1 octobre 2020
Titre: Apprentissage Profond pour le Raisonnement Visuel
Directeur de thèse: Matthieu CORD (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: L’objectif de cette thèse est de développer des modèles ayant une capacité de raisonnement visuel. Le raisonnement est une capacité humaine qui diffère de la perception. Dans notre contexte, il s’agit de prendre des décisions complexes, nécessitant parfois un processus itératif, avec comme support des données visuelles. Le premier axe de recherche est celui de la fusion multimodale, entre image et texte. Il s’agit de créer des représentations de l’image et du texte, mises en contexte l’une par rapport à l’autre. Ces représentations sont utiles dans des tâches multimodales telles que le Visual Question Anwswering, le sous-titrage automatique, ou la recherche d’image. Le deuxième axe de cette thèse concernera les biais, c’est à dire des raccourcis non désirés dans les décisions des modèles. Nous sommes confrontés à ce problème dans les tâches multimodales. Par exemple, dans le Visual Question Answering (VQA), les modèles reposent souvent sur des corrélations superficielles entre la question et la réponse, sans tenir compte des images. Détecter et contrôler les biais est essentiel pour permettre une confiance envers les résultats de ces modèles. Nous continuerons nos travaux sur la réduction des biais dans les modèles de fusion multimodale, et de VQA en particulier. Le troisième axe de cette thèse sera l’interprétabilité des résultats en raisonnement visuel. Ainsi, il est utile pour un humain de pouvoir comprendre la décision prise par un modèle de raisonnement.



Doctorant.e: Dancette Corentin