Description
Date depot: 1 janvier 1900
Titre: Gestion de données de recommendation à large échelle
Directeur de thèse:
Talel ABDESSALEM (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
L’essor du Web social marque un tournant dans notre mode de traitement de l’information accessible sur le web. Ces nouvelles applications sont centrées sur l’utilisateur : son profil, ses contacts, les ressources qu’il met à la disposition des autres, ses annotations (tags), les notes qu’il attribut aux ressources des autres, ses appréciations des échanges qu’il a pu avoir avec d’autres utilisateurs, etc.
L’utilisateur n’est plus un simple consommateur d’information, mais il participe à la production de l’information, à son indexation et à sa classification. Un des défis auquel sont confrontées aujourd’hui
ces nouvelles applications est la prise en compte de ces informations pour mieux guider l’utilisateur dans ses choix et trier les éléments d'information les plus pertinents pour lui (les produits, livres, films, etc. qui sont susceptibles de l’intéresser, les utilisateurs d’un réseau social avec qui il pourrait tisser des liens, etc.). Cette nouvelle fonctionnalité s’appuie sur des systèmes de recommandation qui, pour être efficaces, doivent traiter des volumes de données très importants et tenir compte de l’évolution
continue de données.
Un système de recommandation cherche à prédire l'avis que donnerait un
utilisateur sur un objet (film, livre, news, message, etc.). La recommandation est obtenue en comparant le profil d'un utilisateur à certaines caractéristiques de référence provenant de l'objet en question, des transactions passées de l'utilisateur, de ses amis (filtrage collaboratif), ou des autres utilisateurs qui lui
sont similaires (ayant un profil proche, par exemple).
La plupart des algorithmes de recommandation proposés dans la littérature ne passent pas à l’échelle, et ne sont donc pas efficaces pour traiter des volumes de données aussi importants que ceux qu’on
peut avoir dans les applications du web social. Certaines applications, comme Netflix.com qui est un site spécialisé dans la location de films, ont lancé un défi aux chercheurs et ont mis à leur disposition des données afin de tester et leurs algorithmes de recommandation. Les tests effectués ont montré que la plupart des algorithmes ne passent pas à l’échelle en termes de nombre d’utilisateurs et de volume de données personnelles manipulées (e.g. cas de plus de 100 millions d’avis émis par 500 000
utilisateurs au sujet de 17 000 produits). En effet, la recommandation est une opération coûteuse en termes de ressources CPU et mémoire. Elle nécessite d’agréger des gros volumes de données produites par de nombreux utilisateurs.
Pour relever le défi et proposer des algorithmes de recommandation à très large échelle, deux directions sont suivies : d’une part, l’optimisation des algorithmes de recommandation existants, et
d’autre part, l’optimisation du temps de calcul en adaptant ses algorithmes à des infrastructures distribués (ex: de type Cloud) offrant une capacité de traitement extensible. Cette thèse suit cette seconde direction.
Doctorant.e: Gueye Modou