Projet de recherche doctoral numero :3492

Description

Date depot: 1 janvier 1900
Titre: Adaptation créative par évolution artificielle
Directeur de thèse: Stéphane DONCIEUX (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: L'un des principaux défis ouverts en intelligence artificielle est de mettre au point des algorithmes permettant à des robots autonomes de s'adapter à des situations que ses créateurs n'ont pas prévues. Dans le scénario envisagé dans cette thèse, un robot hybride roue-pattes doit faire face à une situation imprévue (par exemple, une patte est cassée ou la surface du sol a radicalement changé). Le robot est autorisé à lancer quelques expériences (des mouvements) pour comprendre la situation ; après quelques minutes, il doit être capable de se remettre à bouger efficacement. Cette problématique est typiquement abordée dans le cadre de l'apprentissage par renforcement et en particulier avec les méthodes de {direct policy search}[1,6]. Il a récemment été mis en évidence que les algorithmes évolutionnistes pouvaient être une alternative intéressante aux méthodes de {direct policy search} basée sur des descentes de gradient [2,8]. Un tel changement apporterait de meilleures capacités d'optimisation globale et la possibilité d'explorer un espace de politique ouvert (car les algorithmes évolutionnistes permettent d'optimiser dans l'espace des structures [3]). Ce changement se fait néanmoins au coût d'un accroissement du nombre d'évaluation des solutions potentielles. Le sujet de cette thèse est de faire le lien entre apprentissage par renforcement type {direct policy search} et algorithmes évolutionnistes. La piste de départ est de doter le robot d'un modèle de soi ({self-model})[1] afin de déporter une partie de l'apprentissage dans une simulation, car il est plus rapide de tester un comportement dans une simulation que sur le robot réel. En particulier, cette thèse étendra le travail de thèse de Sylvain Koos sur l'algorithme de la {transférabilité en ligne}[4,5], qui exploite le modèle de soi sans le remettre en cause, et celui publié par Josh Bongard sur l'adaptation automatique du modèle de soi. Cette thèse devra aussi s'intéresser aux capacités de ré-adaptation, c'est à dire utiliser l'expérience passée pour s'adapter plus vite. Les expériences de cette thèse se dérouleront avec l'un des robots hybrides roue-pattes mis au point à l'ISIR et en exploitant les dispositifs de capture de mouvement de l'ISIR. -# J. C. Bongard, V. Zykov, and H. Lipson, Resilient Machines Through Continuous Self-Modeling, Science, vol. 314, no. 5802, pp. 1118-1121, 2006. -# V. Heidrich-Meisner and C. Igel, Neuroevolution strategies for episodic reinforcement learning, Journal of Algorithms, vol. 64, no. 4, pp. 152-168, Oct. 2009. -# G. S. Hornby, J. D. Lohn, and D. S. Linden, Computer-automated evolution of an X-band antenna for NASA's Space Technology 5 mission., Evolutionary computation, vol. 19, no. 1, pp. 1-23, Jan. 2011. -# S. Koos, J.-B. Mouret, and S. Doncieux, The Transferability Approach : Crossing the Reality Gap in Evolutionary Robotics, IEEE Transaction on Evolutionary Computation, 2012 -# S. Koos and J.-B. Mouret, Online Discovery of Locomotion Modes for Wheel-Legged Hybrid Robots: a Transferability-based Approach, in Proceedings of CLAWAR, 2011. -# A. Sproewitz, R. Moeckel, J. Maye, and A. J. Ijspeert, Learning to Move in Modular Robots using Central Pattern Generators and Online Optimization, The International Journal of Robotics Research1, vol. 27, no. 3-4, pp. 423-443, Mar. 2008. -# R. S. Sutton, D. McAllester, S. Singh, and Y. Mansour, 'Policy gradient methods for reinforcement learning with function approximation' in Proceedings of NIPS, 1999. -# S. Whiteson, Evolutionary function approximation for reinforcement learning, The Journal of Machine Learning Research, vol. 7, pp. 877-917, 2006.

Doctorant.e: Cully Antoine