Projet de recherche doctoral numero :5189

Description

Date depot: 5 avril 2018
Titre: Apprentissage par renforcement dans le cas de récompenses rares avec exploration par algorithmes de Qualité-Diversité et construction autonome d’espace d’état
Directeur de thèse: Stéphane DONCIEUX (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: En l’absence de démonstrations, un système robotique peut apprendre à accomplir une tâche sur la base d’un signal de récompense qui permet de guider l’exploration et l’acquisition progressive d’une politique comportementale adaptée. L’apprentissage par renforcement permet d’apprendre les relations entre un état, qui décrit le système et son environnement, une action et une récompense. Pour cela, un algorithme d’apprentissage par renforcement explore les couples états-actions et propage les récompenses observées aux états précédents l’obtention de ces récompenses. Un processus de décision ultérieur peut alors résoudre la tâche en choisissant les actions qui ont mené à ces récompenses par le passé.L’utilisation de ce formalisme en robotique pose plusieurs défis. Le premier est celui du choix des états et des actions, qui a un impact critique sur l’apprentissage [Kober et al. 2013]. Cette question est d’autant plus importante qu’un robot évolue dans un environnement continu et ses actions sont, elles-mêmes, continues. De plus, ces dernières peuvent être décrites de différentes manières, sous la forme d’une trajectoire, d’une primitive de mouvement ou d’un système asservi sur une perception - la position d’un objet, par exemple. Le deuxième défi est celui de réussir à observer des séquences menant à une récompense. Dans des espaces d’état et d’action de petite taille, de telles séquences peuvent facilement être observées pendant une exploration aléatoire. Dans le cas d’espaces de grande taille, une exploration aléatoire a au contraire peu de chances de générer des récompenses.Cette thèse porte sur l’étude d’algorithmes d’apprentissage permettant de découvrir des actions et séquences d’actions continues menant à une récompense lorsque son observation est rare. Les travaux réalisés porteront sur l’apprentissage de comportements impliquant, par exemple, des interactions avec des objets pour un robot de type Pepper, Baxter ou PR2. Cette thèse se placera dans le cadre de la robotique développementale avec une approche itérative : le robot va explorer ses possibilités en interagissant avec son environnement et construire progressivement des représentations d’état pertinents ou des compétences sensori-motrices sur lesquelles il s’appuiera pour continuer son exploration. La principale problématique abordée pendant la thèse sera donc la suivante :Comment structurer l’exploration des capacités sensori-motrices du robot pour lui permettre de découvrir des interactions et récompenses rares ?Cette problématique générale se déclinera en deux questions :Comment générer des comportements permettant d’observer toute la variabilité des possibilités offertes au robot par ses propres capacités et par son environnement ?Quelle information extraire de cette expérience et comment l’extraire pour identifier des espaces comportementaux permettant au robot de poursuivre cette exploration et d’observer de nouveaux effets auparavant inatteignables ?Les comportements visés seront, par exemple, des comportements de saisie ou de manipulation simple d’objets, impliquant éventuellement une dynamique (lancer de balle ou bilboquet). L’approche adoptée s’inspirera des algorithmes de recherche de type Quality-Diversity [Pugh et al. 2016, Cully et Demiris 2017] qui seront associés à des algorithmes d’apprentissage d’espace d’état [Lesort et al. 2018]. Ces travaux se situent dans la continuité du projet Européen DREAM (http://robotsthatdream.eu/) et seront réalisés dans le cadre d’un financement de type CIFRE en collaboration entre l’ISIR et SoftBank RoboticsEurope. 

Doctorant.e: Paolo Giuseppe