Description
Date depot: 14 septembre 2021
Titre: Méthodes de Curriculum Automatique pour problèmes à récompenses parcimonieuses en apprentissage par renforcement
Directeur de thèse:
Olivier SIGAUD (ISIR (EDITE))
Directeur de thèse:
Sylvain LAMPRIER (LERIA)
Domaine scientifique: Sciences pour l'ingénieur
Thématique CNRS : Intelligence artificielle
Resumé: L’idée de cette thèse est d’étudier et développer des méthodes de curriculum automatique, qui permettent un apprentissage progressif malgré les contraintes de l’environnement, en apprenant à définir des fonctions de récompense intrinsèques guidant l’évolution de l’agent vers les objectifs visés. Dans ce cadre, un premier type d’approche efficace propose de pré-apprendre à explorer le monde, en se servant d’états atteints au cours de trajectoires échantillonnées, que l’on considère comme buts à atteindre desquels on peut tirer de l’expérience (ce qui permet de répondre à des problématiques de parcimonie des récompenses de l’environnement). Une autre idée séduisante est de se baser sur des architectures adverses de pré-apprentissage de l’environnement, où deux agents similaires avec des objectifs contradictoires s'affrontent: un agent oracle cherche à proposer à un agent élève des problèmes qu'il est capable lui-même de résoudre, et sur lesquels l'élève a des difficultés. Les deux agents progressent ensemble, ce qui mène le processus à complexifier la tâche au fur et à mesure de l'apprentissage. L’idée est de déterminer la “zone de développement proximal” de l'élève, s’inspirant ainsi des méthodes pédagogiques chez l’humain. Dans une même veine, des approches génératives entraînent des générateurs de buts adaptés, via l’utilisation d’un discriminateur adverse qui vise à discriminer les buts selon leur intérêt pour l’agent apprenant. Enfin d’autres approches visent à encourager la curiosité, via l’apprentissage de fonctions de récompenses intrinsèques favorisant l’exploration. L'objectif de la thèse est de mettre en regard ces différentes approches en fonction des caractéristiques des environnements visés, ainsi que d'explorer des pistes prometteuses de curriculum basés sur des modèles du monde.
Doctorant.e: Castanet Nicolas