Projet de recherche doctoral numero :4649

Description

Date depot: 1 janvier 1900
Titre: Algorithmes de bandits pour la collecte d'informations en temps réel sur les réseaux sociaux
Directeur de thèse: Patrick GALLINARI (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Dans cette thèse, nous nous intéressons au problème de la collecte de données en temps réel dans les médias sociaux. En raison des différentes limitations imposées par ces médias, mais aussi de la quantité très importante de données, il n'est pas envisageable de collecter la totalité des données produites par des sites tel que Twitter. Par conséquent, pour être en mesure de récolter des informations pertinentes, relativement à un besoin prédéfini, il est nécessaire de se focaliser sur un sous-ensemble des données existantes. Dans ce travail, nous considérons chaque utilisateur d'un réseau social comme une source de données pouvant être écoutée à chaque itération d'un processus de collecte, en vue de capturer les données qu'elle produit. Ce processus, dont le but est de maximiser la qualité des informations récoltées, est contraint à chaque pas de temps par le nombre d'utilisateurs pouvant être écoutés simultanément. Le problème de sélection du sous-ensemble de comptes à écouter au fil du temps constitue un problème de décision séquentielle sous contraintes, que nous formalisons comme un problème de bandit avec sélections multiples. Dans cette optique, nous proposons plusieurs modèles de bandit visant à identifier en temps réel les utilisateurs les plus pertinents. Dans un premier temps, le cas du bandit dit stochastique, dans lequel chaque utilisateur est associé à une distribution de probabilité stationnaire, est étudié. Par la suite, nous étudions deux modèles de bandit contextuel, l'un stationnaire et l'autre non stationnaire, dans lesquels l'utilité de chaque utilisateur peut être estimée de façon plus efficace en supposant une certaine structure, permettant ainsi de mutualiser l'apprentissage. En particulier, la première approche introduit la notion de profil, qui correspond au contenu moyen produit par chaque compte. D'autre part, la seconde approche prend en compte l'activité d'un utilisateur à un instant donné pour prédire son comportement futur. Pour finir, nous nous intéressons à des modèle permettant de prendre en compte des dépendances temporelles complexes entre les utilisateurs, avec l'utilisation d'un espace latent au sein duquel l'information transite d'un instant à l'autre. Chacune des approches proposées est validée sur des données réelles et artificielles.

Doctorant.e: Gisselbrecht Thibault