Projet de recherche doctoral numero :3160

Description

Date depot: 1 janvier 1900
Titre: Indexation pour la recherche par le contenu textuel de flux RSS
Directeur de thèse: Michel SCHOLL (CEDRIC)
Directeur de thèse: Cédric DU MOUZA (CEDRIC)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Sujet de Thèse Indexation pour la recherche par le contenu textuel de flux RSS, Lieu : laboratoire CEDRIC du CNAM Encadrants : C. du Mouza, MdC, M. Scholl, Professeur, N. Travers, MdC ({dumouza,scholl,nicolas.travers}@cnam.fr) Thème : Bases de données , flux de données sur le Web Sujet : Afin de réduire l'intervalle de temps nécessaire entre la publication de l'information sur un site web et sa consultation par les utilisateurs, de plus en plus de sites web reposent sur le principe de «Syndication Web » pour diffuser des informations nouvelles. Ce principe désigne un ensemble de technologies fondées sur des formats XML (RSS[9], Atom[1]) et l'approche « publication/souscription » (publish/subscribe)[7] pour la diffusion contrôlée et efficace d'informations sur le web. Les fournisseurs d'information diffusent l'apparition de nouvelles informations (par exemple un article dans un journal électronique) à travers des flux (feeds) RSS ou ATOM auxquels les clients intéressés peuvent s’abonner grâce à des portails web ou des logiciels (lecteurs RSS/ATOM) spécialisés. Ce processus permet à chaque utilisateur de créer son espace d’information personnalisé qui surveille «en temps réel » et d'une manière ciblée l'évolution d'informations professionnelles, commerciales, associatives et personnelles publiées sur le Web. Bien que la syndication Web puisse être considérée comme un moyen privilégié de partager l'information sur le Web, elle doit faire face elle-aussi aux problèmes connus liés au passage à l'échelle du Web. Le nombre de flux RSS et d'utilisateurs s'accroit ainsi tous les jours et les portails d'agrégation spécialisés comme Blastfeed.com, Plazoo.com et Technorati.com sont de plus en plus confrontés à des problèmes de passage à l'échelle. Par exemple le nombre de flux indexés par http://technorati.com/ double approximativement tous les six mois et a atteint 36 millions de flux en avril 2006 ce qui correspond 50 000 publications par heure. L'objectif de cette thèse est de trouver les flux qui répondent aux besoins des utilisateurs. Le premier défi concerne la qualité des réponses apportées à l’utilisateur de flux, qualité limitée par la technologie actuelle. La deuxième classe de défis dont la solution constitue une véritable rupture consiste à satisfaire un grand nombre de requêtes adressées à une offre de flux de plus en plus large et donc si l’on veut une bonne qualité des réponses , à faire face à une cadence de plus en plus importante de ces flux. Nous nous concentrons dans cette thèse sur cette rupture. L’utilisation des standards SQL ou Xquery permet d’exprimer finement les requêtes utilisateur. Nous allons plus loin en proposant de plus une recherche par mot-clé d’autant plus justifiée que les items de flux sont courts et peu structurés. Nous nous concentrons dans cette thèse à ce deuxième type de recherche et adopterons dans un premier temps un modèle booléen. Plus précisément notre objectif est le passage à l’échelle de la recherche de flux dont la description (ou le titre) contiennent un ou plusieurs mots-clés. Une recherche efficace passe par la définition de structures d’index spécifiques qui seront également utiles si on adopte un modèle « vecteur » par exemple pour la fouille de flux (recherche de flux similaires, classement des flux ou items par pertinence, traçabilité des flux , découverte de sous-flux provenant d’autres flux), etc. Cette problématique a été largement traitée dans le cadre de la recherche de documents/pages Web mais peu (voire jamais) dans celui de la recherche de flux RSS. Un des objectifs de cette thèse est donc d'étudier comment prendre en compte les spécificités des flux RSS pour indexer, rechercher et classer les flux. Nous détaillons en détail quelques unes de ces spécificités. Spécificités des flux: 1) contraintes de temps : il faut en un temps très court satisfaire la demande d’un grand nombre d’utilisateurs recherchant des flux . On recherchera des solutions où le temps de réponse privilégie l’exhaustivité de la réponse. Ceci passe en partie par des techniques permettant la réponse simultanée à plusieurs requêtes (qui partagent partiellement les mêmes contenus) et une structure dynamique (pouvant s'adapter à de nombreuses début/fin de requêtes) ; 2) recherche continue de flux: dans un contexte de souscriptions multiples, l'utilisateur peut choisir de s'abonner/désabonner dynamiquement à tous les flux qui satisfont un critère de recherche donné. Par conséquent une recherche de flux doit pouvoir être effectuée soit à un instant donné, soit de manière continue sur une fenêtre temporelle choisie ; 3) le flux peut être considéré comme un document et les techniques classiques de recherche par le contenu textuel peuvent alors être envisagées comme point de départ. C’est ce qu’on, fera dans un premier temps. Toutefois, le flux est une séquence d’items textuels, ce qui permet d’envisager des requêtes plus riches sur les flux,

Doctorant.e: Hmedeh Zeinab