Projet de recherche doctoral numero :6767

Description

Date depot: 30 janvier 2020
Titre: Méthodes innovantes non supervisées de text-mining pour les systèmes de recommandation
Directeur de thèse: Mohamed NADIF (Centre Borelli (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Les représentations de mots sous forme de vecteurs avec un faible nombre de dimensions (word embeddings) sont utilisées comme données d'entrée dans de nombreuses applications de text mining. Un des problèmes posés par les premiers modèles de word embeddings est qu'ils permettent de construire une seule représentation pour chaque mot d'un corpus alors que les occurrences d'un mot peuvent prendre des sens différents d'un contexte à l'autre. Pour résoudre ce problème, des modèles de langage bi-directionnels implémentés soit via des réseaux récurrents bi-directionnels soit à travers des mécanismes de self-attention ont été proposés. De nombreuses études ont montré que ces nouveaux modèles ont permis de faire avancer l'état de l'art sur plusieurs tâches de NLP et de text-mining supervisées. Par contre, peu de travaux ont évalué leur intérêt dans le contexte text-mining non supervisé; situation dans laquelle se trouve la CDC. Un des premiers objectifs de la thèse est donc d'investiguer la contribution que peuvent apporter ces représentations dans un contexte non-supervisé, en particulier pour le clustering, le co-clustering et le tri-clustering. Dans cette thèse, nous choisissons des approches basées sur le tri-clustering. Les données seront organisées sous forme de tenseurs de type utilisateur*produit*embedding. Deux approches seront privilégiées: d’abord celles de type probabiliste pour leur flexibilité et ensuite celles de type factorisation pour leur simplicité. Des extensions des modèles probabilistes de type blocs latents seront proposées dans le cadre de l'analyse textuelle. Des modèles de tri-factorisation seront également développés dans le cadre tensoriel. L'apprentissage via ces modèles permettra de proposer des algorithmes de tri-clustering et de recommandation basés sur des tri-clusters homogènes.

Doctorant.e: Ait Saada Mira