Projet de recherche doctoral numero :4734

Description

Date depot: 1 janvier 1900
Titre: Auto-évaluation de la performance pour l'adaptation en ligne des paramètres d'apprentissage des robots en situation d'interaction sociale
Directeur de thèse: Mehdi KHAMASSI (ISIR (EDITE))
Directeur de thèse: Raja CHATILA (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: {{Problématique générale}} L’objectif du projet est de proposer un nouvel algorithme d’auto-évaluation des performances et des variations de l’environnement (que nous appellerons cognitive monitoring ci-après) et d’adaptation en ligne de l’apprentissage (appelé meta-learning ci-après) en contexte social qui soit suffisamment général et tâche-indépendant pour permettre aux robots d’adapter rapidement leurs paramètres d’apprentissage en fonction des variations de leur propre performance, de façon à pouvoir résoudre différentes tâches dynamiques d’interaction homme-robot sans ajustements de l’algorithme par le programmeur/concepteur. En retour, l’algorithme doit amener à des prédictions expérimentales pour les neurosciences cognitives afin de contribuer à mieux caractériser ce processus chez l’homme. {{Programme de la thèse}} Le travail de thèse proposé doit s’appuyer sur des résultats préliminaires obtenus par le laboratoire (décrits brièvement ci-dessous), les étendre grâce à un travail théorique, puis les appliquer à des expériences d’interaction homme-robot. Enfin, de nouvelles prédictions expérimentales pour les Sciences Cognitives seront générées par simulation de l’algorithme conçu. {{Résultats préliminaires}} Lors d’une thèse précédemment financée par la DGA (Erwan Renaudo, juin 2016, UPMC), nous avons montré qu’une même architecture cognitive inspirée de la capacité des humains à coordonner des apprentissages orientés vers des buts et habituels permettait aux robots de s’adapter de la même manière dans différents scénarios : navigation, apprentissage de séquences visuo-motrices et interaction homme-robot. Néanmoins, cette architecture ne possède pas de mécanismes génériques de cognitive monitoring qui permette l’ajustement des paramètres d’apprentissage de façon similaire dans ces différents scénarios. En parallèle, nous avons développé un nouveau modèle de cognitive monitoring qui permet à un robot simulé de maximiser l’engagement de son interlocuteur humain dans une tâche simple d’interaction sociale (Khamassi et al. 2017). Nous avons montré que dans cette tâche simple, on pouvait transférer des méthodes de bandits qui permettent d’ajuster dynamiquement certains paramètres comme le taux d’exploration. Il reste néanmoins à étendre ce travail à des tâches séquentielles d’interaction homme-robot pour lesquelles les méthodes de bandits ne suffisent pas, puis à étudier si le même algorithme résultant de ce travail peut se généraliser à différentes tâches sociales et non sociales. {{Déroulement du travail de thèse proposé}} La thèse proposée doit débuter par un travail théorique afin de simuler différentes méthodes de bandits pour trouver lesquelles s’adaptent de manière optimale au cas de tâches simples mais non-stationnaires d’interaction homme-robot (i.e. situation non seulement statistique mais adversatiale, très peu étudiée pour le moment). Il s’agira de comparer ces méthodes à des algorithmes utilisant des filtres de Kalman (Granmo & Berg 2008) ou des détections de changements de points (Hartland et al. 2006). Les hypothèses sont que : (1) la façon d’adapter des paramètres comme le taux d’exploration à des changements détectés de l’environnement va dépendre de l’horizon temporel de la tâche, de la façon de mettre à jour les valeurs moyennes des différentes options et leurs variances associées ; (2) la façon dont ceci est réalisé dans les méthodes de bandit peut être transféré à des tâches séquentielles d’apprentissage par renforcement en remplaçant le terme de récompense par un terme d’erreur de prédiction de la récompense ; (3) et enfin que cette façon de procéder sera aussi pertinente en situations non-sociales (où les valeurs dépendent de la statistique de l’environnement) et sociales (où les valeurs dépendent de la statistique de l’interlocuteur). Les algorithmes ainsi mis en place doivent pouvoir se généraliser à des tâches d’interaction homme-robot séquentielles (et toujours non-stationnaires), où nous comparerons les résultats avec des algorithmes de meta-learning (Schweighofer & Doya 2003) et des méthodes issues des neurosciences computationnelles (Frank et al. 2009). Il faudra également vérifier que ces méthodes s’appliquent bien aux paramètres continus associés aux actions discrètes du robot que nous avons précédemment réussis à adapter en ligne en interaction homme-robot simple mais où la récompense (i.e. l’engagement de l’homme dans la tâche) varie avec un délai en fonction des actions du robot (Khamassi et al. 2017). La deuxième partie de la thèse consistera à appliquer l’algorithme mis au point non plus à la simulation mais à des tâches d’interaction entre robot réel et un ensemble de sujets humains. Il s’agit de voir dans quelle mesure l’algorithme peut s’adapter à différents types de sujets (naïfs et non-naïfs), ayant différentes volatilités comportementales, et donnant des récompenses déterministes, stochastiques ou adversariales. Le travail ex

Doctorant.e: Dromnelle Remi