Description
Date depot: 1 octobre 2020
Titre: Apprentissage Profond pour le Raisonnement Visuel
Directeur de thèse:
Matthieu CORD (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé:
L’objectif de cette thèse est de développer des modèles ayant une capacité de raisonnement
visuel. Le raisonnement est une capacité humaine qui diffère de la perception. Dans notre
contexte, il s’agit de prendre des décisions complexes, nécessitant parfois un processus itératif,
avec comme support des données visuelles. Le premier axe de recherche est celui de la fusion
multimodale, entre image et texte. Il s’agit de créer des représentations de l’image et du
texte, mises en contexte l’une par rapport à l’autre. Ces représentations sont utiles dans des
tâches multimodales telles que le Visual Question Anwswering, le sous-titrage automatique,
ou la recherche d’image. Le deuxième axe de cette thèse concernera les biais, c’est à dire des
raccourcis non désirés dans les décisions des modèles. Nous sommes confrontés à ce problème
dans les tâches multimodales. Par exemple, dans le Visual Question Answering (VQA), les
modèles reposent souvent sur des corrélations superficielles entre la question et la réponse,
sans tenir compte des images. Détecter et contrôler les biais est essentiel pour permettre une
confiance envers les résultats de ces modèles. Nous continuerons nos travaux sur la réduction
des biais dans les modèles de fusion multimodale, et de VQA en particulier. Le troisième axe
de cette thèse sera l’interprétabilité des résultats en raisonnement visuel. Ainsi, il est utile
pour un humain de pouvoir comprendre la décision prise par un modèle de raisonnement.
Doctorant.e: Dancette Corentin