Projet de recherche doctoral numero :8912

Description

Date depot: 3 avril 2025
Titre: Algorithmes pour l’apprentissage par renforcement structuré
Directeur de thèse: Jean MAIRESSE (LIP6)
Encadrant : Emmanuel HYON (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Algorithmique, combinatoire

Resumé: Nous nous intéressons à des systèmes dynamiques stochastiques dont l’évolution est aléatoire et dépend des actions prises par un agent. Les actions sont prises séquentiellement dans l’objectif d’optimiser la moyenne des récompenses au cours du temps. Ce type de modèle trouve de nombreuses applications et notamment dans les thèmes applicatives classiques de la RO (planification de la production, gestion de la chaîne d’approvisionnement) mais aussi les systèmes énergétiques intelligents, les réseaux informatique. D’un point de vue théorique, l’analyse de ces systèmes fait appel à des notions reliées à la théorie des files d’attente et à celle des Processus de Décisions Markoviens. Nous nous focalisons sur les algorithmes d’apprentissage par renforcement dans lequel on découvre au cours du temps les récompenses et transitions, sans connaître leurs distributions. L’objectif est d’obtenir une politique approchant au mieux la politique optimale. Les algorithmes RL sont devenus de plus en plus populaires pour résoudre des problèmes d’optimisation complexes. Mais malgré leur succès, ces algorithmes d’apprentissage nécessitent souvent une puissance de calcul importante et ne garantissent pas des performances optimales. C’est pourquoi nous nous intéressons à l’apprentissage par renforcement structuré dans lequel nous disposons de connaissances préalables sur l’environnement (structure particulière du problème, propriétés vérifiées par la politique optimale). Ces informations peuvent être utilisées pour améliorer l’efficacité de l’apprentissage et nous chercherons dans cette thèse à concevoir des algorithmes d’apprentissage par renforcement avec des garanties théoriques optimales qui exploitent la structure des problèmes à résoudre.