Description
Date depot: 1 janvier 1900
Titre: Towards Accurate and Scalable Recommender Systems
Directrice de thèse:
Elisabeth MÉTAIS (CEDRIC)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Towards Accurate and Scalable Recommender Systems
(Filtrage collaboratif distribué basé sur les connaissances sémantiques du domaine – application au projet FIORA)
Le système de recommandation est devenu un domaine de recherche important depuis l'apparition des premiers articles sur le filtrage collaboratif vers le milieu des années 1990 [Resnick 1994]. L'intérêt dans ce domaine reste encore élevé en raison de l'abondance des applications pratiques qui visent à aider les utilisateurs à faire face à la surcharge d'informations et fournir des recommandations personnalisées concernant le contenu et les services qui sont mis à leur disposition.
Cependant, malgré les nombreuses avancées dans le domaine, la génération actuelle des systèmes de recommandation nécessite encore des améliorations pour rendre les méthodes plus efficaces et applicables à un éventail large d’applications, y compris la recommandation nutritionnelle, de vacances, certains types de services financiers, etc. Ces améliorations doivent représenter le mieux possible le comportement des utilisateurs et les informations sur les éléments qui seront recommandés, et doivent élaborer une recommandation moins intrusive et plus flexible
Le principe du filtrage collaboratif [Koren 2013, Su 2009] est d'implanter informatiquement le principe du « bouche-à-oreille ». Il utilise les comportements connus d’une population pour prévoir les futurs agissements d’un individu (appelé « Utilisateur courant »). Il s’agit, dans un premier temps, d’observer l’attitude de l’utilisateur courant dans un contexte donné et ensuite, de rechercher, par comparaison, les utilisateurs ayant des comportements similaires. Pour ce faire, le système de recommandation utilise des renseignements tels que le vote (c’est à dire que les utilisateurs attribuent une note à chaque ressource), le temps de consultation d’une page, l’analyse des logs Web, etc. afin de mesurer l’intérêt suscité par un item (tel qu’un livre ou une information à recommander).
Cette approche permet de résoudre la problématique d’indexation liée à l’approche par contenu car elle se base sur l’historique et l’évaluation des autres utilisateurs plutôt que sur le contenu et peut donc recommander tout type de ressources. De plus, l’approche collaborative permet d’exprimer d’autres facteurs et critères, ce qui n’était pas possible dans la recommandation par contenu. Cependant, des problématiques existent, principalement liées au démarrage à froid et à la montée en charge du système d’où la nécessité de mettre en place des algorithmes performants et robustes.
Les verrous technologiques de la thèse s’articulent selon les axes suivants :
• Modéliser le contexte utilisateur et les informations sémantiques de l’application de la façon la plus générique possible afin de pouvoir intégrer à tout moment de nouvelles données et tenir compte du plus grand nombre de paramètres pouvant améliorer le conseil personnalisé ;
• Sélectionner automatiquement et dynamiquement les variables à partir du contexte qui permettent d’améliorer la qualité du conseil personnalisé. En effet, toutes les informations concernant l’environnement de l’utilisateur ne sont pas pertinentes;
• Développer un système de conseil temps réel et dynamique capable de s’adapter rapidement aux changements des intérêts des utilisateurs mais aussi aux modifications et l’hétérogénéité de l’environnement. Le problème est d’associer à chaque ressource un rang en fonction de l’utilisateur et de son contexte en utilisant des techniques d’apprentissage incrémentales et de fouille de flux de données [Chiky 2009] qui nécessitent un nombre de passes limité sur les données. L’utilisation de ces méthodes permet de consommer le moins possible de temps de calcul et d’espace mémoire afin d’assurer la robustesse et la montée en charge du système ;
• La recommandation peut profiter de l’émergence de réseaux sociaux [Davoodi2012] tels que Facebook, Twitter, LinkedIn, etc. afin d’extraire un contenu riche d’informations lié à un utilisateur (âge, sexe, localisation, historique du travail et de l’éducation, préférences, etc.) ainsi que son interaction avec son entourage proche (commentaires, messages, appartenance à des communautés ou groupes, etc.). Nous envisageons d’intégrer ces informations dans le moteur de recommandation que nous développerons dans le cadre de cette thèse ;
• Evaluer la qualité du conseil en proposant des indicateurs de satisfaction de l’utilisateur et de ses partenaires dans le cas d’un contexte collaboratif. Les expérimentations seront réalisées dans le cadre du projet FIORA avec deux cas d’application, un concernant des recommandations nutritionnelles et le second pour des recommandations touristiques ;
• Distribuer les traitements afin de gérer de de gros volume de cas sur un cluster d'ordinateurs à l'aide du framework mapreduce ;
Doctorant.e: Pozo Manuel