Description
Date depot: 1 janvier 1900
Titre: Classification dans un très grand nombre de catégories
Directeur de thèse:
Patrick GALLINARI (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
{Contexte}
La croissance des données disponibles, leur complexification, la multiplication des besoins exprimés par les applications liées aux nouveaux moyens d’accès aux données (web, mobilité, sites collaboratifs, etc,) ont généré quantité de nouveaux problèmes de traitement de données pour lesquels l’apprentissage automatique n’a pas de réponse aujourd’hui. Ces demandes, liées à l’évolution de la technologie, font exploser le cadre classique de l’apprentissage qui se trouve actuellement devant un ensemble de défis fondamentaux. En particulier, la classification, qui consiste à attribuer une ou plusieurs classes à un objet est un problème générique de l’apprentissage étudié depuis plus de 40 ans. Aujourd’hui, de plus en plus d’applications requièrent de faire de la classification avec des milliers ou dizaines de milliers de classes.
Jusqu’à très récemment, la classification avec de très grands nombres de classes ne concernait que quelques applications très spécifiques et n’a donné lieu qu’à quelques travaux de recherche isolés. Un cas d’application souvent cité est celui de la Classification Internationale des Brevets (CIB) avec environ 60 000 classes (www.wipo.int/classifications/ipc). Avec le développement du web, les grandes classifications (e.g. portail Yahoo !) sont apparues initialement comme des systèmes de navigation. DMOZ (acronyme pour Directory Mozilla) se veut le plus large répertoire du web et regroupe actuellement environ 600 K catégories. Dans les deux cas, l’organisation et la classification de nouveaux documents sont faits manuellement.
La situation a rapidement changé depuis quelques années avec le développement de nombreuses applications traitant des dizaines de milliers de catégories, en général liées au web, et soutenues par de forts enjeux économiques. Ce problème se pose par exemple en filtrage et classification de données sémantiques pour classer des documents dans les grandes taxonomies ou pour étiqueter les données de grandes collections (e.g. Wikipedia ). Des systèmes tels que DMOZ, à large couverture, commencent ainsi à être perçus comme des thésaurus ou des ontologies de thèmes qui peuvent être utilisés dans divers cadres : établissement d’un profil utilisateur, classification par domaines en vue de sélection de ressources appropriées, complément à une classification dans la CIB pour la recherche d’antériorité, etc. Egalement on rencontre le même problème pour l’annotation d’objets multimédia où la recherche d’information dans les grandes bases d’images ou de vidéos passe par l’étiquetage de ces objets complexes avec des dizaines de milliers de tags (e.g. Flickr), dans la conception de moteurs de recherche où l’indexation automatique des ressources par mots clés ou catégories est fondamentale pour les moteurs de recherche texte ou multimédia, en recommandation, ou encore pour le ciblage de publicité qui est un enjeu majeur pour les FAI, etc.
{Sujet}
Le point de départ et la motivation de ce sujet de thèse est qu’il n’existe aujourd’hui aucune réponse à ce saut qualitatif des besoins dans les méthodes de classification. La recherche dans ce domaine en est encore à un stade préliminaire. Une des raisons est que les principes fondamentaux utilisés sont principalement hérités de modèles classiques de l'apprentissage automatique et ont été développés pour des problèmes de reconnaissance des formes simples avec un faible nombre de catégories sans relations entre elles. Les modèles les plus sophistiqués considèrent des taxonomies de catégories qui sont loin de refléter la nature et la complexité des problèmes de classification rencontrés actuellement.
Motivée par ce contexte applicatif, la recherche académique a commencé depuis peu à s’intéresser au problème. Sur le fond, la catégorisation avec des milliers de catégories présente des problèmes « durs » d’apprentissage et d’accès à l’information. Ils font véritablement éclater les cadres standards de la catégorisation de documents car ils présentent la particularité de mettre en jeu un grand nombre d’attributs (plusieurs centaines de milliers), un grand nombre d’exemples (plusieurs centaines de milliers) et un grand nombre de catégories (plusieurs dizaines de milliers). L’équipe Malire du LIP6 co-organise en 2011 une campagne internationale sur ce sujet.
Actuellement le problème d’apprentissage est souvent traité dans les communautés applicatives, et n’a pas véritablement donné lieu à des développements théoriques et algorithmiques fondamentaux. Le but de cette thèse est d’explorer un certain nombre de pistes pour le développement de systèmes de classification dans un grand nombre de catégories. Pour cela on envisagera deux cadres de travail.
Dans un premier temps on cherchera à développer des modèles exploitant une taxonomie de classes ou concepts préexistante. Cette approche dite top down est la seule aujourd’hui à être raisonnable en termes de complexité.
Dans un deuxième temps, on s’intéressera à l’ap
Doctorant.e: Puget Raphael