Description
Date depot: 1 janvier 1900
Titre: Apprentissage automatique pour la classification de grandes collections dans un très grand nombre de classes. Applications à la recherche d’information multimédia et texte.
Directeur de thèse:
Patrick GALLINARI (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Thèse co-encadrée par Ludovic Denoyer
Contexte
Le Web met à notre disposition une quantité croissante de données sémantiques (textes, images, video). Leur exploitation demande la mise au point de techniques d’apprentissage automatique capables d’effectuer des traitements complexes. Malgré l'effort de recherche récent porté sur la problématique de l'étiquetage d'informations multimédia et de collections du Web, les performances obtenues sont encore relativement pauvres et la recherche dans le domaine de l'étiquetage automatique de grandes collections de documents en est encore à un stade préliminaire.
Une des raisons est que les principes fondamentaux utilisés sont hérités de modèles classiques ciblant des problèmes simples avec un faible nombre de catégories sans relations entre elles. Les modèles les plus sophistiqués considèrent des taxonomies de catégories qui sont loin de refléter la nature et la complexité des problèmes de classification issus du Web. Une autre raison fondamentale est que les étiquettes associées aux documents, ne sont pas utilisées pour propager l’information sémantique correspondante, à l’ensemble d’une collection.
Sujet de thèse
La thèse a pour but de développer et d'étudier un ensemble de méthodes conçues spécifiquement pour cette nouvelle réalité du traitement de l'information multimédia. Elle vise des aspects fondamentaux du problème de classification dans un grand nombre de classes ainsi que des aspects algorithmiques pour la classification de grandes collections comme l'étiquetage de grands corpus du Web ou l'annotation d'images.
Aspects fondamentaux
La thèse visera à proposer des formulations mathématiques du problème de classification dans un grand nombre de classes. L’hypothèse classique d’indépendance des données et des étiquettes est trop restrictive dans le cadre de l'étiquetage de grandes collections avec un grand nombre de classes où, d'une part, les données à classifier - collections multimédia, du Web, réseaux sociaux - sont souvent liées les unes aux autres par des relations de différente nature - hyperliens, liens 'd'amitié', etc... - et d'autre part, les catégories à découvrir entretiennent souvent des relations entre elles, éventuellement inconnues de l'utilisateur. Cette thèse permettra de proposer des formalisations pour la problématique de classification non-i.i.d. Les pistes étudiées seront :
• L'intégration des relations entre les étiquettes et entre les données sous forme de modèles de régularisation permettant la propagation d'information entre les éléments d'une collection. Actuellement, les modèles proposés permettent la modélisation de relations entre les données là où nous souhaiterions ici pouvoir aussi intégrer des informations relationnelles entre les catégories.
• La découverte automatique de relations sous-jacentes non explicites dans les grandes collections permettant la simplification du problème de classification. Tandis que les méthodes basées sur des régularisations permettent d'intégrer efficacement à un problème d'apprentissage des informations relationnelles entre les données, elles considèrent que ces relations sont explicites et connues. Il est cependant difficile de connaitre toutes les relations entre catégories dans un problème de classification à plusieurs milliers de classes provenant par exemple d'un site Web communautaire. Le travail développé visera parallèlement à proposer des solutions permettant la découverte de relations entre les données, ainsi qu'entre les catégories.
Aspects algorithmiques
La problématique de classification de grandes colletions dans un grands nombre de classes pose, en plus des aspects fondamentaux précédemment décrits, des problèmes algorithmiques, principalement des problèmes de passage à l'échelle des modèles et de complexité. Le travail effectué visera à proposer des solutions algorithmiques permettant l'utilisation des modèles fondamentaux proposés. Principalement, nous nous appuierons sur deux grandes classes de famille de méthodes permettant le passage à l'échelle de modèles:
• Les méthodes d'échantillonnage (Gibbs sampling par exemple) font l'objet d'un regain d'intérêt dans le monde de l'apprentissage car elles semblent être une solution efficace pour le passage à l'échelle de modèles d'apprentissage statistique
• Les modèles incrémentaux sont des méthodes récentes qui visent à modifier la formulation de problèmes d'optimisation sous la forme de problèmes de prises de décisions séquentielles.
Aspects applicatifs
Nous envisageons principalement des applications dans trois domaines:
• Le domaine de la recherche d'information à travers le problème de l'étiquetage de grandes collections multimédia du Web. Par exemple, la collection wikipedia correspond à une problématique de classification de plusieurs millions de documents dans plusieurs dizaine de milliers de catégories, qui est aujourd'hui faite manuellement par les utilisateurs du site.
• Le domaine du trait
Doctorant.e: Jacob Yann