Projet de recherche doctoral numero :3092

Description

Date depot: 1 janvier 1900
Titre: Métadonnées pour la personalisation de l'accès à la connaissance et à l'information
Directrice de thèse: Bernadette BOUCHON-MEUNIER (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Au cours des dernières années, plusieurs institutions et projets se sont focalisés sur le développement d'entrepôts de ressources éducatives. Une des méthodes proposées pour améliorer la recherche sur ces entrepôts ou sur le web d'une manière générale consiste à enrichir les documents avec des métadonnées. C'est un ensemble d'informations destinées à mieux identifier ces ressources : l'auteur, la date de publication, le titre, etc. Ces métadonnées permettent de décrire, de localiser ou encore de faciliter la découverte et l'utilisation des ressources. Le besoin de méthodes de production des métadonnées qui sont plus efficaces et moins coûteuses que celles impliquant des êtres humains se fait sentir. Notre objectif dans ce travail de thèse est donc de réaliser des méthodes d'extraction automatique de métadonnées à partir des ressources éducatives afin de minimiser l'effort humain d'annotation. Dans une première étude, nous explorons les relations qui peuvent exister entre les différents champs de métadonnées. Nous utilisons pour cela des méthodes d'apprentissage supervisé ainsi que des méthodes à base de règles d'association. Cette étude nous a permis de constater que certains champs de métadonnées peuvent contribuer à l'annotation d'autres champs. Cette approche est importante puisqu'elle est indépendante du type et de la représentation de la ressource. Nous nous sommes aussi intéressés à l'extraction de métadonnées à partir du contenu des ressources. Les méthodes proposées se basent sur des techniques d'apprentissage statistique, des techniques d'analyse du texte ainsi que des méthodes d'extraction des propriétés du texte, comme le style et la mise en page. Ces méthodes permettent de donner de meilleurs résultats que celles qui se basent sur les balises Meta du code source des pages HTML. Nous évaluons aussi l'influence du déséquilibre entre les classes sur le résultat de la classification. Nous comparons pour cela les résultats obtenus en appliquant certaines techniques de ré-échantillonnage telles que ENN, NCL et SMOTE. Dans une dernière étude, nous proposons une méthode pour décrire automatiquement une ressource pédagogique avec des concepts qui lui sont spécifiques. Nous distinguons deux types de concepts : les concepts définis et les concepts prérequis. Ce travail est ensuite exploité afin de réaliser une méthode d'ordonnancement automatique des ressources pédagogiques.

Doctorant.e: Changuel Sahar