Description
Date depot: 1 janvier 1900
Titre: Des comportements flexibles aux comportements habituels: meta-apprentissage neuro-inspiré pour les robots autonomes
Directeur de thèse:
Mehdi KHAMASSI (ISIR (EDITE))
Directeur de thèse:
Raja CHATILA (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
De nos jours, lorsqu’un robot résout une tâche pour laquelle il n’a pas été pré-programmé, de façon autonome ou en interaction avec l’homme, un calcul long et coûteux de planification est effectué puis exécuté. Pourtant, dans les situations où le robot doit régulièrement répéter la même tâche, refaire systématiquement cette planification apparaît comme une perte de temps et un frein à la rapidité de prise de décision par le robot. Il semble donc utile d’œuvrer pour la synthèse d’architectures cognitives robotiques leur permettant de faire du contrôle cognitif, c’est-à-dire de reconnaître les contextes répétitifs ou familiers pour y déclencher des comportements de routine précédemment bien appris, et de reconnaître lorsque les changements de la tâche ou de la performance du robot requiert l’abandon de ces routines et une nouvelle planification.
Une façon d’aborder ce problème est de prendre inspirer des capacités d’automatisation du comportement observées au cours de l’apprentissage animal. En effet, on sait que le comportement des mammifères résulte d’une interaction entre deux systèmes de décision : l’un basé sur le cortex préfrontal, planifiant des comportements dits « orientés vers des buts » à partir d’un modèle du monde (Koechlin et al., 2003) ; l’autre basé sur des régions sous-corticales comme les ganglions de la base permettant la construction d’habitudes comportementales par apprentissage par renforcement, permettant de libérer le cortex de ses calculs dans les situations familières. De plus, lorsque le système cortical de supervision attentionnelle du comportement détecte que l’agent atteint une performance asymptotic dans un contexte stable, un transfert du contrôle du comportement a lieu du système orienté vers des but au système habituel (Balleine and O’Doherty, 2010).
Depuis une dizaine d’années, les membres de l’équipe AMAC à l’ISIR ont développé en parallèle (1) des architectures cognitives robotiques fondées sur des méthodes d’Intelligence Artificielle (travail de Raja Chatila au LAAS, Toulouse) et (2) des modèles neuro-inspirés de meta-apprentissage permettant notamment à des robots de reproduire les performances comportementales des rongeurs en navigation (travail de Benoît Girard et Mehdi Khamassi à l’ISIR). Les premières ont toutefois été développées principalement pour la planification et l’exécution par des robots autonomes dans des tâches prédéfinies. Ces architectures ont peu ou pas de capacités d’apprentissage (à l’exception de quelques extensions de l’achitecture LAAS, Clodic et al. 2008).
L’objectif de cette thèse est donc de transférer les connaissances neurobiologiques mentionnées pour intégrer ces capacités de meta-apprentissage (supervision des performances de l’agent et transfert du contrôle de l’action d’un système de décision à l’autre) dans l’architecture cognitive LAAS. Ce travail doit permettre de contribuer à l’amélioration des capacités actuelles d’apprentissage des robots en s’inspirant de la façon dont le cerveau coordonne différents niveaux hiérarchiques de prise de décision, et comment il sélectionne et intègre les informations pertinentes pour l’adaptation efficace du comportement. Cette problématique aux aspects cruciaux de l’adaptation et l’autonomie chez les robots.
Le travail de thèse sera réalisé sur le robot PR2 (développé par Willow Garage) acquis par l’ISIR dans le financement Equipex ‘Robotex’ (250 KE). De plus, ce travail s’inscrira dans le cadre du projet HABOT financé par le programme Emergence(s) de la Ville de Paris et visant à équiper les robots de capacités bio-inspirées d’apprentissage d’habitudes pour la résolution robuste de tâche répétitive.
Doctorant.e: Renaudo Erwan