Projet de recherche doctoral numero :8551

Description

Date depot: 4 juillet 2023
Titre: Models with uncertainties for reinforcement learning
Directeur de thèse: Maurizio FILIPPONE (Eurecom)
Encadrant : Giuseppe PAOLO (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Many of the real-world problems tackled by Huawei involve the control of systems with complex dynamics within budgetary and/or safety constraints. In this challenging setting, model-based reinforcement learning (MBRL) has been widely used thanks to its sampling efficiency and task-agnostic nature. The aim of this PhD is to give models the ability to quantify uncertainty for MBRL, as well as to design agents capable of leveraging uncertainty information to achieve better performance on the systems of interest. In practice, uncertainty information can be used to drive exploration or ensure safety. One family of such models is Bayesian Neural Networks that estimate uncertainty by learning a probability distribution over the model’s parameters. These models have another important property which is the choice of prior distributions. Such a feature can be considered as an entrance point to incorporating domain knowledge in the learned models. Finally, the project also aims at generalizing the 1-step transition models to dynamic horizons and make use of uncertainty estimates that don’t suffer from the compounding errors problem.

Résumé dans une autre langue: Un grand nombre de problèmes réels abordés par Huawei impliquent le contrôle de systèmes à la dynamique complexe dans le cadre de contraintes budgétaires et/ou de sécurité. Dans ce contexte difficile, l'apprentissage par renforcement basé sur un modèle (MBRL) a été largement utilisé grâce à son efficacité d'échantillonnage et à sa nature agnostique. L'objectif de ce doctorat est de donner aux modèles la capacité de quantifier l'incertitude pour l'apprentissage par renforcement basé sur des modèles, ainsi que de concevoir des agents capables d'exploiter les informations d'incertitude pour obtenir de meilleures performances sur les systèmes d'intérêt. Dans la pratique, l'information sur l'incertitude peut être utilisée pour conduire l'exploration ou assurer la sécurité. Les réseaux neuronaux bayésiens, qui estiment l'incertitude en apprenant une distribution de probabilités sur les paramètres du modèle, constituent une famille de modèles de ce type. Ces modèles possèdent une autre propriété importante, à savoir le choix des distributions préalables. Cette caractéristique peut être considérée comme un point d'entrée pour l'incorporation de la connaissance du domaine dans les modèles appris. Enfin, le projet vise également à généraliser les modèles de transition en une étape à des horizons dynamiques et à utiliser des estimations d'incertitude qui ne souffrent pas du problème des erreurs composées.



Doctorant.e: Benechehab Abdelhakim