Projet de recherche doctoral numero :8337

Description

Date depot: 22 avril 2022
Titre: Classification croisée semi-supervisée sur données textuelles
Directeur de thèse: Mohamed NADIF (Centre Borelli (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Intelligence artificielle

Resumé: La classification croisée (co-clustering) pour les données textuelles consiste à partitionner simultanément les documents et les mots. Une famille de méthodes de co-clustering textuel est disponible. Récemment une approche de co-clustering contrainte a été proposée exploitant les représentations denses de documents. Une extension pourrait permettre d’introduire une expertise de l’utilisateur comme contrainte de la classification supervisée. On peut introduire de la connaissance caractérisée par des valeurs de similarité entre des paires de documents, ou des paires de mots pour régulariser la classification croisée. Une adaptation qui s’appuierait sur le jugement humain constitue également une piste d’amélioration. Ces approches sont cependant actuellement très limitées en termes d’exploitation de l’expertise humaine. L’objectif de la thèse est de proposer plusieurs approches (probabiliste, spectrale et décomposition matricielle) permettant d’exploiter les plongements textuels et l’interaction utilisateur pour effectuer une classification croisée de textes et de mots.

Doctorant.e: Keraghel Imed