Projet de recherche doctoral numero :4011

Description

Date depot: 1 janvier 1900
Titre: Décision séquentielle dans l'incertain à partir d'information préférentielle ordinale
Encadrant : Paul WENG (LIP6)
Directeur de thèse: Olivier SPANJAARD (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Ce projet de recherche vise à faciliter la conception d’agents autonomes capable de prendre des décisions complexes dans des problèmes de décision séquentielle, tels que la planification dans les systèmes robotiques. Dans ces problèmes, on souhaite qu'un agent sache sélectionner automatiquement les actions à exécuter selon la situation dans laquelle il se trouve afin de réaliser une tâche prédéfinie. Pour une tâche donnée, la description et la modélisation des comportements appropriés est une des difficultés majeures dans la conception d'agents autonomes. Les approches standards à ces problèmes (Processus décisionnels de Markov, apprentissage par renforcement...) requièrent une évaluation numérique précise de la valeur des actions (récompenses, coûts, utilités...) pour induire les comportements préférés (e.g. un bon comportement a une valeur élevée). Dans la pratique, on constate que ces valeurs ne sont pas toujours disponibles. En effet, dans un problème réel, plusieurs milliers, voire des millions de valeurs doivent être spécifiées manuellement. Même avec des hypothèses supplémentaires sur la structure du problème, ce paramétrage est ardu, voire impossible à réaliser sauf pour les problèmes de très petites tailles. De plus, dans certaines situations, l'évaluation précise même d'une action peut être difficile et coûteuse à déterminer. Par exemple, dans une application de traitement médical, comment doit-on évaluer le bien-être d’un patient ou sa mort ? Pour pouvoir recourir aux modèles et algorithmes conventionnels, on constate souvent que ces valeurs non connues sont fixées de manière arbitraire dans la pratique. Un tel procédé revient à introduire une information préférentielle qui n'était pas présente. Comme les politiques (plan séquentiel des actions à exécuter) optimales du problème dépendent de ces valeurs précises, on constate qu'une légère variation du choix de paramétrage pourrait conduire à d'autres solutions de nature complètement différente. Cette approche est donc très discutable et le but de cette thèse sera de proposer une approche théoriquement fondée pour résoudre ce problème. L'approche à étudier consiste à travailler dans un cadre moins exigeant en évaluant les actions sur une échelle qualitative ou en utilisant des informations préférentielles du type “cette configuration est préférée à telle autre”. En considérant de telles informations préférentielles qualitatives et/ou ordinales, spécifier un problème devient beaucoup plus aisé. Cependant, les modèles et algorithmes actuels doivent être radicalement changés afin qu’ils tiennent compte de telles informations.

Doctorant.e: Gilbert Hugo