Description
Date depot: 11 juillet 2024
Titre: Prise de décision et planification de manoeuvres basées sur l'apprentissage renforcé pour la conduite automatisée
Directeur de thèse:
Fawzi NASHASHIBI (Inria-Paris (ED-130))
Encadrant :
Hussam ATOUI (Valeo)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: La prise de décision dans la conduite automatisée définit ce qu'il faut faire, c'est-à-dire la planification (stratégique, tactique et opérationnelle), comment le faire (séquentiel ou parallèle, contraintes de sécurité et de confort, etc) et quand le faire, c'est-à-dire en tenant compte des contraintes de temps et de l'interaction avec les autres usagers de la route. Par conséquent, la prise de décision se compose des tâches suivantes pour les différents niveaux de décision : planification de l'itinéraire (ou de la mission), planification de la manœuvre (ou du comportement) et planification du mouvement (ou de la trajectoire).
Ces systèmes de décision sont cruciaux pour la conduite automatisée. Ils reçoivent les informations sur l'environnement de la part des modules de perception et envoient aux contrôleurs de haut niveau les plans de conduite. L'objectif des systèmes de prise de décision est double. Premièrement, générer des trajectoires sans collision dans des environnements dynamiques. Deuxièmement, prendre en compte l'intention des usagers de la route environnants, prédire leur mouvement dans la phase de planification de l'ego-véhicule.
Des études récentes sur l'état de l'art en matière de prise de décision et de planification ont été publiées. Elles soulignent toutefois le travail qui reste encore du travail à faire pour rendre ces algorithmes plus performants et robustes et ainsi augmenter leur fiabilité et le niveau d'acceptation des clients potentiels.
L'apprentissage par renforcement (RL) est un cadre général pour la prise de décision séquentielle basée sur l'apprentissage. Il est formulé comme un problème de contrôle optimal : la politique est choisie pour maximiser une fonction objective. La recherche sur l'apprentissage par renforcement appliquée à la conduite autonome a permis de réaliser des progrès significatifs dans l'amélioration des politiques de conduite, de la planification des trajectoires et des processus de prise de décision.
L'objectif de ce projet doctoral est double:
- Développer un cadre de décision et de planification basé sur la logique logique pour les systèmes de conduite automatisés. Il est tout à fait naturel de commencer par se tourner vers le modèle standard de prise de décision séquentielle : le processus de décision de Markov. À première vue, ce cadre brille par sa simplicité et son élégance, mais aussi par son apparente généralité et sa puissance de représentation. Un espace d'état (observable), un espace d'action (hiérarchique), un espace d'action (quasi-linéaire), un espace d'action (hiérarchique), une dynamique de système (quasi-linéaire) et une fonction de récompense (dense) doivent être pris en compte pour une grande classe de tâches de planification comportementale;
- Optimiser les politiques de conduite à l'aide d'algorithmes RL pour garantir la sécurité, l'efficacité et l'adaptabilité. L'exploration de plusieurs algorithmes fondamentaux de RL profond pour améliorer les performances de la conduite automatisée seront étudiés et évalués, à savoir l'optimisation de la politique proximale (PPO), le réseau Q profond (DQN) et l'algorithme de gradient de politique déterministe profond (DQN) et DDPG (Deep Deterministic Policy Gradient);
- Évaluer les performances du système RL proposé à l'aide de simulations et de tests en conditions réelles.
Pour ce faire, les points clés suivants sont pris en compte :
- Créer un ensemble diversifié de scénarios de conduite représentatifs des conditions du monde réel, y compris la conduite sur autoroute, les environnements urbains, les intersections, les passages pour piétons, les conditions conditions météorologiques défavorables, etc.;
- Intégrer l'algorithme RL dans un environnement de simulation/essai comprenant la dynamique réelle du véhicule, les données des capteurs, les facteurs environnementaux et les interactions avec d'autres agents (par exemple, véhicules, piétons),
véhicules, piétons);
- Définir des métriques de performance pertinentes pour évaluer le comportement du système RL. Celles-ci peuvent inclure
la sécurité (par exemple, le taux de collision), l'efficacité (par exemple, la vitesse moyenne, la consommation de carburant), le respect des règles de circulation et le confort (par exemple, la fluidité des manœuvres).
- Comparer les performances du système basé sur le RL aux méthodes de référence, telles que les contrôleurs basés sur des règles ou les algorithmes artisanaux.
Résumé dans une autre langue: Voir document attaché
Doctorant.e: Kobbi Islem