Projet de recherche doctoral numero :8370

Description

Date depot: 1 septembre 2022
Titre: Modèles génériques Vision et Language multimodaux, multilingues, multitâches
Directeur de thèse: Matthieu CORD (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: Si les jeux de données unimodales, par exemple ne comprenant que des images, ou que du texte, sont présents en abondance, avec par exemple les données du Common Crawl, rassemblant l’ensemble du texte présent sur internet à un certain instant, les jeux de données multimodales sont beaucoup plus rares, petits, et sont généralement construits en interne dans des organismes privées et non partagés par la suite. Les jeux de données multimodales utilisés pour l’apprentissage de grands modèles multimodaux requièrent une taille massive : 250 millions de paires image-texte pour DALL-E [29], 650 millions pour DALL-E 2 [28] ou encore 860 millions pour le récent Imagen [30]. Atteindre une telle taille nécessite de parcourir une bonne partie d’internet afin d’extraire les informations utiles des pages web. Cependant, cela pose un important problème de reproductibilité. Il n’est actuellement pas possible de savoir si les performances obtenues par une étude proviennent du changement du jeu de données ou de l’architecture du modèle. De plus, cela pose un problème d’accessibilité de la recherche où ces jeux de données ne sont pas disponibles publiquement, et sont difficiles et longs à recréer pour un laboratoire disposant d’un budget modeste. Enfin, ces jeux de données ont largement été critiqués pour l’absence de considération éthique en les construisant, laissant apparaître d’énormes biais et du contenu obscène, le tout en étant illégal puisque les licences des pages web ne sont pas considérées. Actuellement, le seul jeu de données de paires image-texte de très grande taille en accès libre est LAION [33], comportant 400 millions de paires, mais celui-ci fait débat en raison de ces points [6]. La construction et la publication d’un jeu de données multimodales de très grande taille aurait un impact important pour la communauté de l’apprentissage machine travaillant sur la multimodalité, en proposant un jeu de données de référence, grand, éthiquement responsable, légal, sur lequel les chercheurs pourront se baser pour construire leurs modèles et se comparer. Par ailleurs, ce jeu de données sera également notre base pour l’entraînement de notre propre modèle, d’où le fait de commencer par ce point. Dans le premier axe de cette thèse, le doctorant participera à la construction et la publication d’un grand jeu de données multimodales, en ayant étudié les impacts de l’alignement, de la déduplication et du filtrage sur la qualité des modèles multimodaux. Dans le deuxième axe de cette thèse, le doctorant étudiera différentes architectures pour effectuer une représentation universelle des données ainsi que pour le modèle multimodal principal. Il entraînera ce modèle et construira une évaluation pour celui-ci, tout en adaptant le modèle à résoudre des tâches non apprises lors de l’entraînement.

Doctorant.e: Laurençon Hugo