Description
Date depot: 1 janvier 1900
Titre: An Intelligent Publish/Subscribe System in a BigData environment
Encadrant :
Nicolas TRAVERS (CEDRIC)
Directeur de thèse:
Cédric DU MOUZA (CEDRIC)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
{{Lieu:}} laboratoire CEDRIC du CNAM
{{Equipes:}} ISID & Vertigo
{{Encadrants:}} C. du Mouza, N. Travers ({dumouza, nicolas.travers}@cnam.fr)
{{Mots-clés:}} Publish/Subscribe, indexation, passage à l'échelle, continu, diversité, Big Data
{{{Contexte}}}
Internet est aujourd’hui un support économique reconnu et utilisé pour la diffusion d’informations à large échelle. Afin de réduire l'intervalle de temps nécessaire entre la publication de l'information sur un site web ou un réseau social et sa consultation par les utilisateurs, les systèmes de notifications en continu ont pris une ampleur considérable sur la toile. L'approche {{« publication/souscription »}} (Pub/Sub) [3] pour la diffusion contrôlée et efficace d'informations sur le web est devenue la référence du domaine de notification en continue. Les fournisseurs d'information diffusent l'apparition de nouvelles informations (par exemple un article dans un journal électronique) à travers entre autres des flux (feeds) RSS [1] ou ATOM [2] auxquels les clients intéressés peuvent s’abonner grâce à des portails web ou des logiciels (lecteurs RSS/ATOM) spécialisés. Ce processus permet au final à chaque utilisateur de surveiller « en temps réel » l'évolution d'informations publiées sur le Web.
Naturellement, le nombre de ces sources de données grandit chaque jour et le nombre d’utilisateurs explose (e.g., Twitter suit une croissance exponentielle). De fait, le passage à l’échelle des systèmes de notification de type « publication/souscription » est un défi réel aussi bien au niveau qualitatif que quantitatif. En effet, il faut traiter un {{énorme volume de données en continue}}, tout en étant capable de délivrer des {{informations pertinentes}} à un nombre d’utilisateurs toujours plus grand, sans les submerger d’informations hors sujet ou redondantes. Les portails d'agrégation spécialisés comme Blastfeed.com, Plazoo.com et Technorati.com sont de plus en plus confrontés à des problèmes de passage à l'échelle et proposent uniquement des possibilités de filtrages rudimentaires pour l’utilisateur.
Nous avons réalisé une étude préliminaire approfondie du comportement des flux RSS, dans laquelle nous nous sommes particulièrement intéressé à leur comportement et à la structure et contenu des items publiés [4]. En nous appuyant sur cette étude, nous avons proposé des {{structures d’indexation de souscriptions}} (requêtes utilisateurs) basées sur des mots-clés et adaptées à la {{notification de messages en continu}} [5].
Toutefois, malgré cette étape de filtrage par mots-clés qui permet de réduire le nombre de messages notifiés aux utilisateurs, la masse d’information reste phénoménale. De fait, l’utilisateur reste submergé par des {{informations redondantes ou largement similaires}}. Ainsi, nous souhaitons étudier une nouvelle approche de filtrage intelligent, complémentaire des travaux précédents, reposant sur la {{diversité et la nouveauté}} des résultats sur des données produites en continu [6,7,8]. L'idée est que les messages déjà notifiés (l'historique de la souscription) à un utilisateur peuvent servir de filtre pour les messages futurs. Les notions de nouveauté (information non encore notifiée dans l’historique) et de diversité (information globalement différente de l’historique) sont les concepts clés sur lesquels repose ce sujet de thèse.
{{{Sujet de thèse:}}}
Un des deux objectifs de cette thèse est donc d’étudier la {{diversité et la nouveauté}} de l’information sur des données en continue {{dans un cadre Publication/Souscription}}. Il s'agit d'un sujet précurseur dans ce contexte, très porteur, et qui rencontre un succès croissant dans la communauté base de données dans d'autres contextes. Le grand volume de données et de souscriptions fait de ce sujet un réel défi d’importance. Une première approche envisagée est de mutualiser les historiques de toutes les souscriptions pour permettre un passage à l’échelle évident. Le calcul de ces fonctions de similarité, nouveauté, diversité, restent malheureusement couteux et des techniques d’optimisation de calcul, des regroupements d’historique ou de souscription, et des techniques de réduction de l’espace seront à prospecter tout au long de la thèse. De ce point de vue, nous nous focaliserons particulièrement sur une approche de pré-filtrage, inspiré de méthodes basées sur des seuils de contrôle [9] réduisant positivement l’espace de recherche.
Le dernier point envisagé dans cette thèse est l'étude du {{passage à l’échelle}} de notre solution {{dans le cadre du BigData Management}}. En effet, bien que nos précédents résultats aient été étudiés au niveau local, une distribution des données et des calculs sont indispensables pour un réel passage à l’échelle au niveau du Web. Un des objectifs de cette thèse consistera à proposer une distribution des structures d’indexation et de calcul de similarité. Une étude apronfondie des systèmes de BigData tel que, Memcached [10], Hadoop [
Doctorant.e: Grossetti Quentin