Projet de recherche doctoral numero :2823

Description

Date depot: 1 janvier 1900
Titre: Ordonnancements multi-classe : théorie, algorithmes et applications
Directeur de thèse: Stephan CLEMENCON (LTCI (EDMH))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: Dans de nombreuses applications (moteurs de recherche, systèmes de recommandation, scoring de crédit, diagnostic médical, etc.), les données d’entrée et/ou de sortie des systèmes d’information prennent aujourd’hui la forme de listes ordonnées. L’enjeu de cette thèse consiste à élaborer et étudier des algorithmes visant à apprendre statistiquement à ranger des données auxquelles sont affectées des labels inobservables, à partir d’une collection d’exemples pour lesquels le label est observé (échantillon d’apprentissage). Ce problème d’apprentissage dit « supervisé » rend compte de nombreuses problématiques industrielles. Dans le contexte des moteurs de recherche thématique par exemple, les utilisateurs peuvent juger de la pertinence du lien proposé pour une certaine requête sur une échelle discrète (« pertinent », « moyennement pertinent », « peu pertinent »), les données caractérisant le contenu associé à ce lien. Les questions de scoring pour la gestion du risque de crédit ou la CRM peuvent également se formaliser de la même manière. Malgré son ubiquité dans les applications, les questions relatives à l’apprentissage automatique d’ordonnancements sont encore largement ouvertes, les critères de performance pour ce problème global ne prenant pas la forme d’une simple moyenne mais de statistiques de rang le plus souvent. Le cas dit binaire (i.e. où le label de peut prendre que deux valeurs) a été l’objet d’un grand nombre de travaux en machine-learning ces dernières années. Dans ce cadre restreint, ordonner revient à « scorer » et utiliser l’ordre naturel sur la droite réelle, la qualité de l’ordonnancement étant alors jugée l’aûne de la courbe COR des scores, toute mesure de performance usuel telle que les critères AUC, DCG, etc. pouvant être exprimées comme une fonctionnelle de celle-ci. Comme l’ont montré les travaux de Clémençon, Lugosi et Vayatis (2005, 07) et de Clémençon et Vayatis (2008), il est possible d’offrir un cadre de validité pour l’approche dite de « minimisation du risque empirique » lorsque le risque est mesuré par une fonctionnelle scalaire de la fonction de score (statistique de rang) grâce à des techniques de linéarisation (projection de Hajek). Plus pratiquement, la question de l’optimisation du critère fonctionnel ultime, la courbe ROC, a pu être abordée au moyen d’une formulation de celle-ci comme un continuum de problèmes de classification à coûts sensitifs, en combinant des techniques d’approximation non linéaires issues de l’analyse harmonique algorithmique et des algorithmes standards en classification binaire (CART, SVM, etc.), cf Clémençon et Vayatis (2008, 09), Clémençon (2010). Les récents succès obtenus dans le cadre binaire laissent entrevoir de nombreuses pistes pour aborder le cadre multi-classe, reposant en particulier sur une discrétisation adéquate de la « surface roc ». Cadre binaire (résultats fonctionnels, optimisation de la courbe ROC), travaux récents sur les critères « surface roc », sur régression ordinale (Agarwal), théorie des tests d’hypothèses multiples (FDR).

Doctorant.e: Robbiano Sylvain