Description
Date depot: 1 janvier 1900
Titre: Apprentissage interactif de représentations sensori-motrices
Directeur de thèse:
Raja CHATILA (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
{{Problématique générale}}
En robotique, l’analyse des scènes est traditionnellement traitée comme une observation de l’environnement, même si elle peut inclure un processus de perception active [Krotkov&Bajcsy] qui consiste en général à acquérir de l’information supplémentaire par exploration et sélection de points de vues, calculés pour augmenter l’information par exemple, en mettant en œuvre éventuellement des capteurs différents.
Cependant, aucun système de perception robotique n’est capable aujourd’hui de résoudre le problème d’interprétation de scène. De très nombreuses approches ont pourtant été proposées, incluant de l’apprentissage statistique, du raisonnement bayésien ou injectant des connaissances préalables [Ferreira&Dias]. Le problème fondamental de la perception et de l’interprétation reste posé. De plus l’intérêt pour de nombreuses applications, y compris la défense, d’un système capable d’interpréter son environnement est évident.
Le sujet de thèse propose d’explorer une démarche différente, inspirée en particulier des travaux en neurosciences et en psychologie [O'Regan, Gibson], qui se fonde sur une forte association entre la perception et l’action pour l’interprétation des scènes et des objets qui s’y trouvent. Le processus sensori-moteur associe le flux extéroceptif et le flux proprioceptif, ce qui permet la construction simultanée de représentations et de modalités d’action adaptées. L’interprétation de la scène est alors issue des actions que le robot peut effectuer. En d’autres termes, c’est l’action liée à la perception qui fournit le sens et non la seule perception. La description des objets et de l’espace sera ainsi non seulement basée sur des descripteurs perçus, mais aussi sur les actions potentielles.
D’autre part, ce travail s’intéressera également à la construction de représentations à travers l’interaction du robot avec d’autres agents présents dans son environnement, qui manipulent eux-mêmes des objets et peuvent aussi guider sont apprentissage des actions [Clodic et al., Ivaldi et al. - a]. L’hypothèse est que cette interaction et une projection des autres agents sur lui-même permettrait au robot d’apprendre plus facilement ses propres interactions possibles avec les objets et donc de bâtir les représentations de manière plus efficace. Les neurones miroir présents dans le cortex pré-moteur [Rizzolatti&Craighero] pourraient être une indication sur le fondement biologique de cette approche.
{{Programme et démarche}}
L’approche envisagée consistera globalement à construire des représentations d’une scène en associant perception et action. La perception de l’environnement (sensing) est associée dès le départ avec la proprioception des actions. Il s’agira alors d’extraire des éléments perceptuels, représentations de bas niveau associant le flux sensori-moteur (percepts externes et commandes motrices) [Ivaldi et al. - b]. Ces représentations sont associées avec les connaissances contextuelles déjà acquises et les objectifs du robot dont le rôle est de guider le processus d’exploration et d’interprétation. Ceci produit de nouvelles actions qui peuvent être plus ou moins complexes, et cette nouvelle interaction avec l’environnement produit à son tour des représentations qui viennent compléter les précédentes. Ainsi le processus construira à la fois des représentations symboliques de l’environnement porteuses de sens et des modalités d’action relatives à ces représentations qui seront utilisables pour agir sur les objets qu’elles représentent
Les mécanismes à développer s’appuieront en particulier sur des méthodes probabilistes d’association de données et de raisonnement bayésien pour intégrer les différentes informations de manière évolutive et inclure un processus de reconnaissance et d’apprentissage de nouvelles informations. L’association avec les actions se basera sur des méthodes d’apprentissage par renforcement [Sutton&Barto, Do Huu et al ., Caluwaerts et al.]. A partir des premières représentations simples issues des associations sensori-motrices, il faudra explorer comment des représentations plus complexes peuvent être élaborées pour aboutir à des connaissances sémantiques de la scène et des objets. Plusieurs pistes peuvent être envisagées pour faire émerger des représentations à différents niveaux de complexité, comme la catégorisation en ligne par réseaux de neurones hiérarchiques à différentes échelles temporelles [Peniak et al., Droniou et al.] ou des approches bayésiennes [Fereira&Dias, Wong].
D’autre part, la génération des actions nécessite de prévoir leurs effets potentiels. Il faudra donc élaborer une représentation des actions prédictive de la perception de leurs conséquences. Cette association perception-action induira une sémantique de l’environnement fondée sur les actes du robot.
Raisonner simultanément sur la perception et l’action exige aussi une capacité de localisation permanente par rapport à l’environnement. Il y a
Doctorant.e: Luce-Vayrac Pierre