Projet de recherche doctoral numero :2900

Description

Date depot: 1 janvier 1900
Titre: Suivi de mouvements informationnels : construction, modélisation et simulation de graphes de citations, application à la détection de buzz
Directrice de thèse: Bernadette BOUCHON-MEUNIER (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: La démocratisation du Web en tant que support de diffusion de l'information a considérablement modifié l'environnement médiatique. Alors que le nombre de sources existantes augmente considérablement, l'information est plus que jamais sujette à des phénomènes d'amplification pouvant avoir des conséquences majeures sur des décisions politiques, stratégiques ou économiques. Il devient nécessaire de proposer des méthodes et outils permettant de les étudier, les comprendre voire de les contrôler. Ces phénomènes s'observent sous la forme de mouvements informationnels, dont l'étude fait l'objet de cette thèse. La démarche que nous avons retenue pour aborder l'étude des mouvements informationnels se base sur l'étude du graphe des citations entre sites d'information sur le Web. Nous la structurons selon trois axes principaux : la construction, l'analyse et la génération d'un graphe de citations. En guise d'application, nous appliquons nos travaux à la problématique de la détection de buzz. Pour construire le graphe de citations, nous proposons une méthode de crawling adaptée à l'extraction de corpus de relations de citations entre sources Web. La stratégie choisie se base sur une extraction exhaustive des publications des sources et s'accompagne du nettoyage des pages an d'en extraire les liens hypertextes utiles. L'analyse du graphe de citations consiste en une méthode d'identification des comportements de publication des sources à partir de données issues du Web qui nous permet d'identifier quatre comportements se distinguant principalement par la fréquence de publication, la diversité des sources citées et la capacité à exploiter les spécificités de publication sur le Web. An de mener à bien des expérimentations sur des corpus variés, nous cherchons à générer des graphes de citations réalistes, c'est-à-dire capables de reproduire les comportements de publication identifiés sur les données réelles. Ainsi, nous proposons un modèle de génération de graphes de citations suffisamment flexible et adaptable en imitant au mieux le processus de publication réel d'un article sur un site. Ce modèle est implémenté en un outil de simulation adapté à l'étude des phénomènes de diffusion informationnels. Enn, nous proposons une mise en application de la méthode de génération ainsi que de l'outil de simulation dans le cadre d'une étude sur la détection de buzz. Pour ce faire, nous avons précisé le concept de buzz en proposant une définition sur laquelle nous basons plusieurs formalisations adaptées aux données disponibles. L'interprétation des expérimentations effectuées nous conduit à attribuer les méthodes de détection proposées à des cas d'application spécifiques.

Doctorant.e: Nel Francois