Description
Date depot: 1 janvier 1900
Titre: Apprentissage de politiques en environnement inconnu
Directrice de thèse:
Aurélie BEYNIER (LIP6)
Directeur de thèse:
Nicolas SABOURET (LIMSI)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Encadrants :
Aurélie Beynier, Maître de Conférences, LIP6, Université Pierre et Marie Curie (aurelie.beynier@lip6.fr)
Paul Weng, Maître de Conférences, LIP6, Université Pierre et Marie Curie (paul.weng@lip6.fr)
Projet :
Les Processus Décisionnels de Markov (MDP) [Puterman, 2005] offrent un cadre général pour la représentation et la résolution de problèmes de décision séquentielle dans des environnements incertains probabilistes et stationnaires. Ce modèle suppose que l'environnement (dynamique du système et récompenses) soit connu. Lorsque l’environnement ne l’est pas, on peut alors avoir recours à l'apprentissage par renforcement [Sutton et al., 1998] pour déterminer la stratégie optimale. Cependant, dans ces deux formalismes, l'environnement doit demeurer stationnaire et il doit se prêter à une représentation probabiliste.
Dans la pratique, ces deux hypothèses classiques ne sont souvent pas vérifiées. Par exemple, en finance, quand le MDP représente le problème de décision d'un trader souhaitant acheter ou vendre des titres financiers, l'environnement n'est pas stationnaire du fait notamment d'évènements exogènes difficilement prévisibles (crise économique, krach boursier, catastrophe climatique, tremblement de terre, attaque terroriste...).
Un autre exemple concerne les environnements antagonistes où l’agent cherche une meilleure politique face à un environnement considéré comme un adversaire [Monderer et Tennenholtz, 1997]. Dans ce cas, une représentation probabiliste n’est généralement pas adaptée. Notons que des situations de connaissance partielle ou totale de l’environnement peuvent être envisagées. Il s’agit dans les deux cas de trouver une politique robuste.
La problématique de non-vérification des hypothèses classiques citées précédemment est également courante dans les systèmes multi-agents. En effet, quand on se place du point de vue d'un des agents et que l'on considère tous les autres agents (adversaires ou non) comme faisant partie de l'environnement, ce dernier ne peut plus être supposé stationnaire du fait des interactions possibles entre les choix des différents agents qui cherchent simultanément leurs politiques préférées. Par exemple, dans le problème de la patrouille multi-agent en présence d’adversaires [Paruchuri et al., 2008], des agents patrouilleurs doivent définir une stratégie de visite d’un ensemble de sites sans connaître a priori les stratégies des adversaires cherchant à s’introduire sur ces sites. Dans ce cadre, l’approche classique [Chevaleyre, 2004] cherchant à minimiser le temps entre deux visites d’un même site n’est pas adaptée. Le but des agents patrouilleurs est alors de définir une stratégie mixte qui maximise une mesure de performance liée à la détection d’intrus sur les sites à patrouiller. Les résultats des actions des patrouilleurs sont incertains du fait de l’ignorance de la stratégie des adversaires et peuvent difficilement être modélisés de façon probabiliste.
Naturellement, dans certains problèmes, on peut faire face aux deux difficultés simultanément : non stationnarité et représentation non probabiliste.
Doctorant.e: Hadoux Emmanuel