Description
Date depot: 22 avril 2022
Titre: Classification croisée semi-supervisée sur données textuelles
Directeur de thèse:
Mohamed NADIF (Centre Borelli (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle
Resumé: La classification croisée (co-clustering) pour les données textuelles consiste à partitionner simultanément les documents et les mots. Une famille de méthodes de co-clustering textuel est disponible. Récemment une approche de co-clustering contrainte a été proposée exploitant les représentations denses de documents. Une extension pourrait permettre d’introduire une expertise
de l’utilisateur comme contrainte de la classification supervisée. On peut introduire
de la connaissance caractérisée par des valeurs de similarité entre des paires de documents,
ou des paires de mots pour régulariser la classification croisée. Une adaptation qui s’appuierait sur le
jugement humain constitue également une piste d’amélioration. Ces approches sont cependant actuellement très
limitées en termes d’exploitation de l’expertise humaine.
L’objectif de la thèse est de proposer plusieurs approches (probabiliste, spectrale et décomposition
matricielle) permettant d’exploiter les plongements textuels et l’interaction utilisateur pour effectuer
une classification croisée de textes et de mots.
Doctorant.e: Keraghel Imed