Projet de recherche doctoral numero :4610

Description

Date depot: 1 janvier 1900
Titre: Apprentissage d'un espace latent hétérogène
Directeur de thèse: Patrick GALLINARI (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Les techniques de machine learning reposant sur des variables latentes sont nombreuses et permettent d'attaquer divers problématiques. Les réseaux de neurones utilisent des architectures de plus en plus profondes, impliquant nombre de variables cachées sur des données de type signal, image ou texte. Des techniques récentes ont montré qu'il était possible de raisonner en effectuant des opérations directement dans l'espace latent. Certaines operations fonctionnent directement dans un espace sémantique appris sur une base de textes, d'autres sont explicitement apprises sur des bases de connaissances . l'espace latent étant appris pour modéliser la langue (les enchaînements de mots) ou pour raisonner sur des triplets. En parallèle, la représentation latente d'éléments hétérogènes est devenue classique avec la croissance des systèmes de recommandation. L'idée est alors de projeter des utilisateurs et des items dans un même espace pour comprendre les spécificités de chaque item et les goûts de chacun. L'espace latent est alors appris avec comme contrainte de prédire correctement les notes que chaque utilisateur a donne aux items qu'il a croisé. L'enrichissement des espaces latents est un challenge recent : il est par exemple possible d'enrichir les profils des utilisateurs et/ou des items en utilisant les informations textuelles. La notion de temps permet aussi d'intégrer les phénomènes de mode et l'évolution des profils utilisateurs. L'enjeu sera d'agréger efficacement différentes sources d'information potentiellement hétérogènes pour améliorer les performances d’une application cible. Apres avoir assimilé la littérature du domaine, le doctorant travaillera sur l'enrichissement des systèmes de recommandation : en mêlant les profils utilisateurs et items avec le texte et le temps, il développera de nouveaux systèmes plus performants. L'intégration d'une dimension textuelle permet aussi d'envisager des extensions par rapport aux systèmes actuels : il sera possible d'associer un utilisateur a des mots clés positifs ou négatifs, de décrire les aspects d'un produits qu'il est susceptible d'apprécier ou pas. La prise en compte de tous ces facteurs sur de grandes masses de données reste aujourd'hui un problème ouvert. Cette these doit être l'occasion de proposer des systèmes novateurs sur des bases théoriques solides. Nous envisagerons également différentes nouvelles formulations pour la recommandation basées sur des transformations dans l'espace latent, le but étant d'attaquer la question suivante : la recommandation peut-elle être formulée comme un problème de raisonnement dans l'espace latent ?

Doctorant.e: Dias Charles-Emmanuel