Description
Date depot: 1 janvier 1900
Titre: Classification Croisée dans un Contexte de Données Complexes
Directeur de thèse:
Mohamed NADIF (Centre Borelli (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
{{Contexte du sujet}}
Contrairement aux méthodes de classification automatique habituelles, les méthodes de classification croisée traitent l’ensemble des lignes et l’ensemble des colonnes d’un tableau de données simultanément en cherchant à obtenir des blocs homogènes, tout en ne privilégiant pas un ensemble sur un autre. La classification croisée comme la plupart des méthodes d’analyse de données peut être considérée comme une méthode de réduction et de simplification des données. Ces dernières années, la classification croisée, également désignée par le co-clustering ou le biclustering, est devenue un enjeu important dans le contexte du data mining où le nombre de variables souvent très supérieur au nombre d’objets (text mining , analyse de données biopuces, graphe biparti, etc). Ce sont des méthodes 'scalables' capables de surmonter le problème de la 'sparsity' (matrices creuses).
Un travail récent est le développement de techniques basées sur le principe d’approximation et de décomposition matricielle, qui marie en outre la théorie d’apprentissage automatique avec la théorie de décomposition matricielle. Ces approches qui possèdent un formalisme mathématique élégant, simples à mettre en œuvre et donnent des résultats faciles à interpréter. L’objectif de recherche de cette thèse est de contribuer au développement de nouvelles approches de classification croisée dans une optique de méthodes de décomposition matricielle, tant d’un point de vue théorique, aussi bien qu’appliqué à des domaines et problématiques spécifiques.
{{Travail à effectuer}}
Dans cette thèse, nous explorons de nouvelles formulations afin d'étendre la classification croisée à une variété de modèles de données complexes et étudier comment les appliquer aux problèmes du monde réel.
1-Nous commençons par intégrer les contraintes par paires dans la classification croisée, cela permet d'étendre la classification croisée non supervisée au cadre semi-supervisé.
2-Puis, nous étudions comment étendre la classification croisée au cadre de l'apprentissage multi-vues.
3-Nous explorons également l’extension de la classification croisée dans cadre de méthodes d’ensemble (Ensemble Co-clustering).
4-Enfin, nous étendons davantage notre formulation de la classification croisée de l'apprentissage passif à un apprentissage actif.
Dans le cadre de cette thèse, le travail portera principalement sur le problème de la classification croisée via des méthodes d’approximation matricielle type SVD, NMTF (Non negative matrix tri-factorization). Un formalisme par approximation /décomposition matricielle de type SVD, NMF sera proposé. Le problème de la classification croisée est de cette façon reformulé dans un cadre algébrique reposant sur l’approximation matricielle en vertu de certaines contraintes appropriées.
Quelles que soient leurs motivations, les approches décrites ci-dessus utilisent des techniques de classification traditionnelles qui mettent en jeu deux ensembles sans prendre en considération d’informations additionnelle sur ces données.
Le premier axe d'innovation sera donc d'examiner et d'adapter à notre contexte les techniques de co-clustering, [Dhi03, Gov03, Gov08, Laz11a, Laz11b] c'est-à-dire rechercher simultanément une partition des deux ensembles tout en tenant compte d’éventuelles contraintes par paires [Pensa08], [Song10].
Dans un second temps, on développera des techniques de Co-clustering à base de décomposition matricielle (SVD et NTMF) bien adaptées aux données multi-vues, c'est-à-dire rechercher simultanément une partition des deux ensembles qui résume au mieux les différentes vues.
Doctorant.e: Allab Kais