Description
Date depot: 1 janvier 1900
Titre: Apprentissage automatique et inférence dans les grands réseaux collaboratifs.
Directeur de thèse:
Patrick GALLINARI (ISIR (EDITE))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
La thèse vise à explorer l’apprentissage statistique et l’inférence dans les grands réseaux collaboratifs liés au web. Nous cherchons à développer des procédures d’apprentissage et d’inférence pour répondre aux problèmes soulevés par de nombreuses applications comme par exemple la détection de fraude, de spam sur le web ou dans les blogs, la découverte de relations entre individus, la recommandation, et toutes sortes d’applications de la classification ou de la prévision sur ces grands graphes. Le sujet s’inscrit dans un courant de recherche extrêmement récent, qui vise à réinventer la fouille de données pour le domaine des grands réseaux collaboratifs et particulièrement les réseaux sociaux. Pour cela, nous nous appuierons sur des méthodes de l’apprentissage statistique.
Aspects algorithmiques
On explorera plusieurs familles de méthodes de l’apprentissage dans le but d’une part d’apprendre et de découvrir les relations présentes implicitement dans les données et d’autre part d’effectuer de l’inférence dans des grands réseaux. Le sujet conduira à revisiter dans ce cadre coopératif, des problématiques générales de l’apprentissage. Un aspect important concerne le développement de modèles d’apprentissage permettant d’analyser des données du type graphe. Deux grandes problématiques seront explorées :
La découverte de relations
Un des objectifs de la thèse est de proposer des modèles permettant la découverte de relations sur les contenus et les individus. La découverte de relations entre objets, entre individus ou entre objets et individus peut se formuler naturellement comme un problème de découverte de variables latentes. Ces dernières représentent alors les relations sémantiques entre données, les thématiques présentes dans les données de contenu, les relations entre individus, etc. Ces modèles permettent de faire de l’inférence sur les différentes variables du problème par le calcul de probabilités marginales. Ils permettent également de faire de l’inférence sur plusieurs variables simultanément et d’identifier par exemple les groupes d’individus constituant une communauté thématique.
L’inférence collective
L’inférence collective consiste à calculer des scores en chacun des nœuds de ce réseau, correspondant par exemple à une classe, une valeur de pertinence, un score d’ordonnancement. Sur le plan de la fouille de données, les deux premiers cas correspondent à des problèmes de classification collective où il s’agit d’affecter une étiquette aux nœuds, le troisième cas correspond à une problématique d’ordonnancement où il s’agit d’ordonner des informations (documents ou images) en fonction de leur pertinence pour un besoin d’information.
Les problèmes d’inférence collective sont en général NP-complets. Les algorithmes développés doivent permettre de calculer de façon efficace des solutions approchées au problème. Les algorithmes d’inférence collective exploitent soit des extensions des techniques de relaxation, de classification itérative, et plus généralement des techniques inspirées des champs markoviens, soit des méthodes qui combinent l’optimisation d’une fonction de score portant sur les caractéristiques des nœuds et des contraintes liées à la structure relationnelle. Toutes ces méthodes ont été développées dans un cadre de classification bi-classe ou multi-classe. Ces travaux sont souvent extrêmement récents (2006-2007 - voir les références ci dessous) et leur potentiel opérationnel est encore limité.
Un premier travail sera de sélectionner quelques représentants de ces principales familles de méthodes et de tester le passage à l’échelle des principales familles d’algorithmes univariés sur le cas des problèmes de classification (filtrage, découverte de communautés).
Dans un second temps il s’agira de développer des extensions de ces méthodes qui concernent :
o L’apprentissage et l’inférence pour des problèmes autres que la classification.
o La prise en compte de relations multiples correspondant à différentes sources d’informations relationnelles.
o Le passage à l’échelle.
Les applications
Parallèlement au développement des méthodes, nous étudierons une sélection d’applications clé sur qui nous permettrons de tester sur des cas réels et en grande dimension les algorithmes développés.
Ces applications seront liés à l’analyse des réseaux sociaux, avec des problèmes comme comme la découverte de liens ou relations entre individus et entre données, la découverte du ou des rôles des individus dans une communauté.
Doctorant.e: Calauzenes Clement Antoine