Projet de recherche doctoral numero :3186

Description

Date depot: 1 janvier 1900
Titre: Classification de sentiments et détection de rumeurs sur le Web 2.0
Directeur de thèse: Patrick GALLINARI (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Thèse co-encadrée par Vincent Guigue Depuis quelques années, la tâche de « sentiment classification » (encore dénommée « opinion mining » ou « sentiment analysis ») est un domaine de recherche actif. Il consiste principalement à trouver l’opinion, le sentiment et l’attitude qui sont exprimés dans un document textuel ou plus souvent des des flux de documents comme les flux du web, les échanges e-mail ou les commentaires sur les blogs et forums. Beaucoup de sites Web qui contiennent des informations d’opinion comme par exemple des commentaires de clients sur des produits (« customer reviews »), des forums, des groupe de discussion et des blogs où les gens peuvent exprimer leurs opinions et sentiments à l’égard de n’importe quoi ou de n’importe qui. Le Web devient ainsi une excellente source de données d’opinion. L’analyse de ces opinions permet différentes applications. Par exemple, les clients peuvent afficher la comparaison d’opinions des autres clients sur différents produits avant de choisir quel produit qu’ils vont acheter (Liu et al. 2005 [2]); les producteurs, les agents commerciaux peuvent collecter les opinions de leurs clients afin d’améliorer leurs produits et services, élargir leur marché potentiel, ou encore prédire la quantité de vente (Yang Liu et al. 2007 [1]). Les sociologues peuvent détecter les rumeurs qui sont reflétés dans les notes des blogs. Différents travaux de recherche considère ce domaine. Par exemple, Pang et al. ont essayé de quantifier le sentiment [3]. Mishne et de Rijke 2006 capturent les niveaux d’humeur dans des notes de blogs [4]. Mishne and Glance 2006 prédisent les ventes de film en fonction des notes des Bloggers [5] …Des compétitions sont organisées par le NIST américain pour évaluer les approches du problème. L’objectif de la thèse est de développer des méthodes d’apprentissage statistique permettant, dans un document textuel, de détecter conjointement un ensemble de caractéristiques permettant de qualifier les opinions comme : • La source d’une opinion : la personne qui donne l’opinion, • L’attitude de l’opinion, c'est-à-dire si l’opinion est positive ou négative • La destination ou objet de l’opinion. • Les résumés d’opinion Pour cela, un ensemble de modèles et de tâches relevant de la classification de sentiments et d’opinions seront étudiés. Une première étape sera l’adaptation de classifieurs classiques, réseaux de neurones, machines à vecteurs de support, etc, au problème de la prédiction de polarité. Cette première étude permettra d’analyser et de sélectionner les caractéristiques textuelles les plus pertinentes pour représenter les opinions. La caractérisation du discours non thématique est une problématique largement ouverte en recherche d’information. Dans un deuxième temps, des modèles génératifs permettant l’extraction simultanée de caractéristiques thématiques, sentiments et relationnelles seront développés.. Nous nous intéressons tout particulièrement aux modèles à variables latentes. Celles ci modélisent des phénomènes cachés, i.e. non explicites, dans les données comme les relations sémantiques entre données, les thématiques présentes dans les données de contenu, les relations entre individus, etc. Ces modèles permettent de faire de l’inférence sur les différentes variables du problème. On s’attachera donc à proposer des modèles à variables latentes adaptés à l’analyse de polarité, à l’analyse jointe polarité-thématiques, et enfin dans le cas de corpus d’échanges d’information (courriers, fils de discussion, blogs, réseaux sociaux, etc) à l’analyse des échanges d’opinion. Des modèles de cette famille seront également développés pour la tâche de résumé d’opinion. Au-delà de la modélisation elle-même, les principales difficultés sont liées au développement d’algorithmes d’apprentissage et d’inférence efficaces. Pour traiter ces problèmes, nous explorerons un ensemble de familles de modèles pour lesquels des techniques d’estimation simple (de type EM) peuvent être déployées. Nous explorerons aussi les techniques de type « Gibbs sampling » pour limiter la complexité de l’estimation. Les méthodes développées seront testées et adaptées sur plusieurs types de corpus : sites de conseils et avis de consommateurs, sites de blogs dans le cadre de la compétition internationale TREC organisée par le NIST, dépêches de presse. Bibliographie [1] Yang Liu and al. 2007 ARSA: A Sentiment-Aware model for predicting sales performance using blogs. [2] Liu et al. 2005 Opinion observer: Analyzing and comparing opinions on the Web. [3] Pang, Bo and Lee, Lillian 2005 Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales. [4] Gilad Mishne and Marteen de Rijke 2006 Capturing global mood levels using blog posts. [5] Gilad Mishne and Natalie Glance 2006 Predicting Movie Sales from Blogger Sentiment.

Doctorant.e: Rafrafi Abdelhalim