Informations professionnelles
Statut: Industriel (Docteur ED)
ED: EDITE
Unité de recherche: ISIR (EDITE)
Employeur: SoftBank Date de debut de thèse: 23 novembre 2018 Date soutenance de thèse: 5 novembre 2021 Directeur de thèse: Stéphane DONCIEUX (ISIR (EDITE)) Sujet de thèse: Apprentissage par renforcement dans le cas de récompenses rares avec exploration par algorithmes de Qualité-Diversité et construction autonome d’espace d’état Thématique : Intelligence artificielle
Employeur: SoftBank Date de debut de thèse: 23 novembre 2018 Date soutenance de thèse: 5 novembre 2021 Directeur de thèse: Stéphane DONCIEUX (ISIR (EDITE)) Sujet de thèse: Apprentissage par renforcement dans le cas de récompenses rares avec exploration par algorithmes de Qualité-Diversité et construction autonome d’espace d’état Thématique : Intelligence artificielle
Thèse en cours (1)
Nom | Prenom | Début | Co-encadrants | Financement |
---|---|---|---|---|
BENECHEHAB | Abdelhakim | 5 juin 2023 | FILIPPONE Maurizio | CIFRE (HUAWEI) |
Soutenance de thèse
Données générales
Titre : Learning in Sparse Rewards settings through Quality Diversity algorithms
Date : 5 novembre 2021
Heure: 10:00
Résumé : Un agent embarqué apprend généralement à interagir avec son environnement par un processus d'essais et d'erreurs, formalisé dans le cadre de l'apprentissage par renforcement.
Dans ce cadre, l'agent effectue une action sur l'environnement et observe son résultat par le biais d'une observation et d'un signal de récompense, indiquant à l'agent la qualité de l'action effectuée par rapport à la tâche. C'est pourquoi, pour apprendre correctement à résoudre la tâche donnée, la récompense doit être donnée après chaque action effectuée. Si ce n'est pas le cas, nous sommes dans une situation de récompenses éparses, qui nécessitent une focalisation sur l'exploration, ce qui est généralement difficile pour les agents RL. Au cours de cette thèse, nous avons abordé le problème des récompenses éparses par le biais des algorithmes de Quality-Diversity, une famille de méthodes conçues pour se concentrer explicitement sur l'exploration.
Lieu : Couloir 65-66, Salle 304
ISIR, Campus Pierre et Marie Curie, 4 place Jussieu, BC173, 75005 Paris
Rapporteurs/ Rapporteuses
Personne | Qualité | Etablissement |
---|---|---|
M. Mouret Jean-baptiste | Directeur de recherche (HDR) | Inria Nancy - Grand Est |
Mme. Hassas Salima | Professeure des universités | Laboratoire d'InfoRmatique en Image et Systèmes d'information |
Composition du jury
Personne | Qualité | Etablissement |
---|---|---|
M. Cully Antoine | Maître de Conférences | Department of Computing (Imp. College), Imperial College of London (Royaume-Uni) |
M. Lamprier Sylvain | Professeur des universités | Laboratoire d'Etude et de Recherche en Informatique d'Angers, Univ. d’Angers |
Mme. Diaz rodriguez Natalia | Maîtresse de Conférences | Computer Science and System Engineering Department |
M. Doncieux Stéphane | Professeur des universités | Institut des Systèmes Intelligents et de Robotique, Sorbonne Université |
M. Mouret Jean-baptiste | Directeur de recherche (HDR) | Inria Nancy - Grand Est |
Mme. Hassas Salima | Professeure des universités | Laboratoire d'InfoRmatique en Image et Systèmes d'information |