Projet de recherche doctoral numero :4737

Description

Date depot: 1 janvier 1900
Titre: Latent Block Models and Non-negative Matrix Tri-Factorization: Unified framework for text data
Directeur de thèse: Mohamed NADIF (Centre Borelli (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Le co-clustering ou classification croisée non supervisée [7] permet de partitionner un ensemble d’objets (lignes) et des variables (colonnes) simultanément. Quelle que soit la nature des données, l’objectif de la classification croisée ou par blocs peut être vu comme une réorganisation des lignes et des colonnes pour faire apparaître des blocs homogènes. Un des premiers avantages de ce type de classifications est de pouvoir résumer rapidement et efficacement un tableau de données de grande taille, de grande dimension, sparse ou non. Un tel objectif représente un grand intérêt dans divers domaines liés à la bioinformatique, les systèmes de recommandations et l’analyse textuelle. Dans ce dernier domaine auquel nous nous intéressons, les données peuvent se présenter sous forme de tables de co-occurrences, documents-mots, croisant un ensemble de documents décrit par un ensemble de mots; chaque cellule indique la fréquence d’un mot donné dans un document. Le co-clustering permet dans ce cas d’obtenir une partition de classes de documents décrite par une partition de classes de mots. Il existe plusieurs algorithmes de co-clustering développés dans ce contexte et sous différentes approches [2, 3, 9, 10,8] ; nous nous focaliserons sur deux d’entre elles. La première s’appuie sur la factorisation matricielle non négative [12] et la seconde sur les mélanges de lois par blocs dits modèles des blocs latents [7]. Non-negative matrix tri-Factorization (NMTF): Cette approche consiste à approximer la matrice des données positives X par ZSW où Z correspond à la matrice d’appartenance des documents, W celle des mots et S peut être considérée comme une représentation compacte de X ; les trois matrices sont non-négatives. Plusieurs types de mesures d’erreur peuvent être considérés telles que la distance euclidienne, la Kullback Leibler ou encore la Itakura Saito divergence. La bibliographe est très riche dans le domaine de la factorisation matricielle non-négative (NMF) pour la classification ; voir par exemple [13]. Latent Block Models (LBM) : Dans le cadre de la classification croisée, il a été montré que plusieurs algorithmes de co-clustering respectivement adaptés aux données binaires, continues et co-occurrences peuvent être vus comme des versions classifiantes de l’algorithme EM associé à des modèles des blocs latents appropriés ; voir par exemple [7]. Des extensions ou d’autres variantes de ces modèles ont été proposées pour des données sparses et notamment des matrices documents-mots [11,1,14]. Si les deux approches ont montré séparément leur efficacité dans le traitement de données textuelles, il n’existe pas pour le moment des connexions entre les deux approches NMTF et LBM. Notons toutefois que plusieurs auteurs ont donné une interprétation probabiliste à la factorisation non négative [5] ou encore établi un lien entre la NMF et la PLSA (Probabilistic Latent Semantic Analysis) [6,4]. En s’appuyant sur les modèles des blocs latents qui sont des modèles génératifs et flexibles et la tri-factorisation, cette thèse aura pour objectif de répondre efficacement à l’objectif du co-clustering pour des données textuelles. Pour ce faire, on placera les deux approches dans un cadre mathématique Si les deux approches ont montré séparément leur efficacité dans le traitement de données textuelles, il n’existe pas pour le moment des connexions entre les deux approches NMTF et LBM. Notons toutefois que plusieurs auteurs ont donné une interprétation probabiliste à la factorisation non négative [5] ou encore établi un lien entre la NMF et la PLSA (Probabilistic Latent Semantic Analysis) [6,4]. En s’appuyant sur les modèles des blocs latents qui sont des modèles génératifs et flexibles et la tri-factorisation, cette thèse aura pour objectif de répondre efficacement à l’objectif du co-clustering pour des données textuelles. Pour ce faire, on placera les deux approches dans un cadre mathématique unifié en prenant en compte d’une part différentes erreurs de mesure d’approximation utilisées dans le cadre de la NMTF et d’autre part des mélanges de lois appropriées dans le cadre du LBM. De cette façon on cherchera à : -#donner une interprétation de la NMTF à l’aide de LBM. D’abord, une interprétation des matrices Z, S et W puis celle de différentes contraintes imposées à ces matrices en plus de la non-négativité, -#étudier les différentes normalisations implicites dans ce type de matrices documents-mots, -#développer de nouveaux algorithmes optimisant de nouvelles fonctions objectifs, -#et enfin proposer une solution au problème du choix nombre de blocs via la maximisation d’une vraisemblance ou vraisemblance classifiante pénalisée.

Doctorant.e: Febrissy Mickaël