Description
Date depot: 30 mars 2023
Titre: Apprentissage multi-agents distribué pour les systèmes de communication
Directeur de thèse:
Marios KOUNTOURIS (Eurecom)
Encadrant :
Omid ESRAFILIAN (Eurecom)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé: L'échelle et la complexité des réseaux de future génération (par exemple 6G) devraient augmenter considérablement par rapport aux réseaux existants. En conséquence, l'approche centralisée traditionnelle dans l'optimisation et la gestion des ressources ne sera plus applicable afin d'atteindre des exigences strictes de QoS (qualité de service) et d'efficacité énergétique. De plus, les systèmes de communication devront s'adapter dynamiquement aux variations (inconnues a priori) de l'environnement, qui sont particulièrement importantes dans les réseaux sans fil. Il est donc naturel de considérer ces systèmes comme des environnements multi-agents, avec plusieurs décideurs (par exemple, stations de base, routeurs, appareils, etc.), chacun ayant une vue partielle du système. L'objectif des décideurs est d'apprendre les politiques optimales de gestion des ressources sur la base des observations qu'ils obtiennent en interagissant avec l'environnement et entre eux. Cependant, un défi clé dans l'apprentissage dans de tels contextes multi-agents est que, du point de vue d'un agent individuel, la dynamique de l'environnement dépend de la politique des autres agents. L'objectif de cette thèse consiste à étudier des algorithmes d'apprentissage multi-agents avec des garanties de performance pour des scénarios pertinents pour les systèmes de prochaine génération. L'accent sera mis sur l'étude du compromis entre l'échange d'informations et les performances dans des environnements d'apprentissage multi-agents et la communication sur des réseaux à topologie variable. Des questions sur la robustesse et la capacité d'adaptation aux dynamiques changeantes seront également abordées.
Résumé dans une autre langue: The scale and complexity of next generation networks (e.g. 6G) is expected to dramatically increase compared to existing networks. As a result, the traditional centralized approach in optimization and management of resources will no longer be applicable in order to achieve stringent QoS and energy efficiency requirements. Moreover, communication systems will need to dynamically adjust to the (unknown a priori) variations of the environment, which are prominent especially in wireless networks. It is therefore natural to view these systems as multi-agent environments, with multiple decision makers (e.g. base stations, routers, devices, etc.), each with a partial view of the system. The objective of the decision makers is to learn the optimal resource management policies based on observations they get by interacting with the environment and each other. However, a key challenge in learning in such multi-agent settings is that from the perspective of an individual agent, the dynamics of the environment depend on the policy of the other agents. The aim of this Ph.D. thesis is to study multi-agent learning algorithms with performance guarantees for scenarios relevant to next generation systems. The focus will be the study of the tradeoff between information exchange and performance in multi-agent learning environments and communication over networks with varying topology. Questions about robustness and the ability to adapt to changing dynamics will also be addressed.
Doctorant.e: Toure Babacar