Projet de recherche doctoral numero :3081

Description

Date depot: 1 janvier 1900
Titre: Évaluation de requêtes top-k continues à large-échelle
Directeur de thèse: Bernd AMANN (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: La grande quantité de messages et d'actualités générés par les médias sociaux (Facebook, Twitter, blogs) et par les médias traditionnelles (presse, télévision, radio) soulève des nouveaux défis dans le traitement des flux continus d'informations à large échelle. En particulier, le double rôle des utilisateurs du Web 2.0 comme producteurs et consommateurs d'informations crée un besoin croissant pour des méthodes efficaces capables de filtrer, d'analyser et d'adapter un grand nombre de flux de données par rapport aux profils évolutifs de millions d'utilisateurs. L'utilisateur est rapidement submergé par les informations reçues à travers les différents médias Web 2.0 auxquels il est abonné, et il éprouve rapidement le besoin d'une interface capable d'agréger et de filtrer les informations par rapport à ses intérêts et son contexte. Tous les agrégateurs de flux d'actualités (Google News, Yahoo! News ou MSNBC news) et de messages sociaux (Google Blog Search ou Thoora) proposent ainsi des fonctionnalités d'agrégation et de personnalisation de l'information. L'agrégation consiste à rassembler les entités d'information (articles de news, messages d'utilisateurs) pour générer des rubriques d'informations avec des propriétés sémantiques partagés (articles concernant le même événement, messages Twitter sur un thème). Ils fournissent ainsi une vue abstraite et synthétique de l'information. La personnalisation peut être explicite en sollicitant l'utilisateur de fournir des mots-clés (filtrage) ou implicite en prenant en compte son comportement (articles lus) ou son contexte (liens sociaux dans un réseau social, position géographique, matériel informatique utilisé etc.). L'objectif principal des ces deux fonctionnalités consiste a sélectionner et à présenter à l'utilisateur seulement un ensemble limité d'informations. Cet ensemble doit pouvoir être maintenu en continu, lorsque de nouvelles publications sont produites. Le projet de thèse proposé considère ce problème d'agrégation et de filtrage continu d'informations d'un nouveau point de vue. L'idée principale consiste à modéliser l'adaptation de flux d'informations à de profils utilisateurs comme un problème d'évaluation de requêtes continues combinées avec des fonctions de scores (ranking) appropriées. Nous nous intéressons en particulier à des requêtes qui calculent en continu les k résultats les plus pertinents (requêtes continue top-k) avec des scores qui prennent en compte à la fois l'importance globale des informations (par rapport aux autres informations et/ou par rapport à l'intérêt de tous les utilisateurs) et leur pertinence locale par rapport à un profil utilisateur (ensemble de mots clés) donné.

Doctorant.e: Vouzoukidou Despoina