Description
Date depot: 1 septembre 2022
Titre: Modèles génériques Vision et Language multimodaux, multilingues, multitâches
Directeur de thèse:
Matthieu CORD (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: Si les jeux de données unimodales, par exemple ne comprenant que des images, ou que du
texte, sont présents en abondance, avec par exemple les données du Common Crawl, rassemblant
l’ensemble du texte présent sur internet à un certain instant, les jeux de données multimodales
sont beaucoup plus rares, petits, et sont généralement construits en interne dans des organismes
privées et non partagés par la suite.
Les jeux de données multimodales utilisés pour l’apprentissage de grands modèles multimodaux
requièrent une taille massive : 250 millions de paires image-texte pour DALL-E [29], 650 millions
pour DALL-E 2 [28] ou encore 860 millions pour le récent Imagen [30]. Atteindre une telle taille
nécessite de parcourir une bonne partie d’internet afin d’extraire les informations utiles des pages
web.
Cependant, cela pose un important problème de reproductibilité. Il n’est actuellement pas
possible de savoir si les performances obtenues par une étude proviennent du changement du
jeu de données ou de l’architecture du modèle. De plus, cela pose un problème d’accessibilité de
la recherche où ces jeux de données ne sont pas disponibles publiquement, et sont difficiles et
longs à recréer pour un laboratoire disposant d’un budget modeste. Enfin, ces jeux de données
ont largement été critiqués pour l’absence de considération éthique en les construisant, laissant
apparaître d’énormes biais et du contenu obscène, le tout en étant illégal puisque les licences des
pages web ne sont pas considérées. Actuellement, le seul jeu de données de paires image-texte de
très grande taille en accès libre est LAION [33], comportant 400 millions de paires, mais celui-ci
fait débat en raison de ces points [6].
La construction et la publication d’un jeu de données multimodales de très grande taille aurait
un impact important pour la communauté de l’apprentissage machine travaillant sur la multimodalité,
en proposant un jeu de données de référence, grand, éthiquement responsable, légal, sur
lequel les chercheurs pourront se baser pour construire leurs modèles et se comparer. Par ailleurs,
ce jeu de données sera également notre base pour l’entraînement de notre propre modèle, d’où le
fait de commencer par ce point.
Dans le premier axe de cette thèse, le doctorant participera à la construction et la publication
d’un grand jeu de données multimodales, en ayant étudié les impacts de l’alignement, de la
déduplication et du filtrage sur la qualité des modèles multimodaux.
Dans le deuxième axe de cette thèse, le doctorant étudiera différentes architectures pour effectuer
une représentation universelle des données ainsi que pour le modèle multimodal principal.
Il entraînera ce modèle et construira une évaluation pour celui-ci, tout en adaptant le modèle à
résoudre des tâches non apprises lors de l’entraînement.
Doctorant.e: Laurençon Hugo