Description
Date depot: 21 janvier 2020
Titre: Joint reasoning in Image and Text Embedding Spaces
Directeur de thèse:
Matthieu CORD (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé:
La recherche en traitement automatisé du langage (NLP) a beaucoup avancé ces dernières années, en particulier avec l'introduction de nouvelles architectures comme les transformers et de nouveaux algorithmes de pré-apprentissage. Le problème du calcul de représentations universelles de phrases est central car il permet de réaliser des taches de NLP complexes avec un temps d'apprentissage significativement réduit. Parallèlement, beaucoup de travaux sur le traitement des images portent sur le calcul de représentations sémantiques d'images.
Nous proposons d'étudier des algorithmes de représentation jointe d'image et texte qui permettent de résoudre des tâches complexes impliquant les deux aspects. Un des objectifs initiaux de cette thèse sera d'étudier si l'on peut décrire une transformation sémantique à partir de deux phrases (par exemple -- Il court/Elle court --), et transférer cette relation à une image. Nous étudierons ensuite la possibilité de construire des séquences cohérentes d'images illustrant un texte.
L'ensemble sera développé en construisant des architectures deep permettant le passage entre les espaces de représentation de l'information visuelle et textuelle.
Doctorant.e: Couairon Guillaume