Description
Date depot: 1 janvier 1900
Titre: Propagation d'information et recommandations dans les réseaux sociaux
Directeur de thèse:
François BACCELLI (Inria-Paris (ED-386))
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
La distribution de contenu multimédia et l’usage des réseaux sociaux tels que Facebook, Orkut, etc., sont en plein essor dans les réseaux d’aujourd’hui. Ces réseaux sociaux sont, par ailleurs, utilisés de plus en plus pour la dissémination et la recommandation de contenu. La diffusion de contenu peut suivre alors les chemins de réseau établis par la structure des relations sociales. L’objectif de cette thèse est de développer une compréhension de la façon dont l’information diffuse dans les réseaux sociaux en fonction du type d’information, des gouts des usagers, et de la structure topologique de ces réseaux. Cette étude servira en suite à concevoir des méthodes de la dissémination de contenu plus efficaces.
Si les réseaux sociaux ont été bien analysés d’un point de vue sociologique, la compréhension de ces réseaux restreints par un réseau physique tel que l’Internet et avec l’élément de diffusion de contenu au dessus est encore incomplète. Les études récentes (Cha, Mislove and Gummadi 2009), (Chakrabarti, et al. 2007), (Nazir, Raza and Chuah 2008) sur le sujet portent majoritairement sur les mesures de l’usage et de la propagation de contenu au dessus de ces réseaux. Dans le cadre de la présente thèse, on s’attachera à développer des modèles de cette propagation, et à identifier des types de structure topologique des relations entre participants qui permettent d’assurer l’efficacité de cette diffusion. Des modèles de graphes aléatoires, graphes générés par des processus aléatoires (Erdös and Rényi 1959), pourront être développés pour cela. Les propriétés particulières des graphes aléatoires nous permettent de calculer des caractéristiques intéressantes telles que la connectivité, distances entre nœuds, regroupement des nœuds, etc., facilitant notre compréhension de l’efficacité de la diffusion dans les réseaux sociaux. Au-delà des graphes aléatoires d’Erdös-Rényi, on considérera aussi des graphes aléatoires plus réalistes, comme les graphes « sans échelle », caractérisés par une distribution des degrés en loi de puissance (Barabási and Albert 1999). On pourra attaquer l’étude de la performance de diffusion d’information sur des graphes de ces familles en utilisant des méthodes dites de « champ moyen » pour caractériser la fraction d’invidus atteints par une information en un temps donné.
On s’intéressera aussi à des stratégies d’optimisation de ces réseaux pouvant être utilisées par les participants (formation optimale du réseau social). Les études sur la formation des réseaux sociaux dans un contexte économique (Jackson 2009) ont donné lieu récemment aux analyses similaires sur les réseaux de communication (Kleinberg and Tardos 2008), (Fabrikant, et al. 2003), toutefois une formation optimale pour la diffusion de contenu (en fonction du type de contenu et des gouts des usagers) reste un problème ouvert.
Dans une seconde partie, on s’attachera à exploiter l’observation des réseaux sociaux, de leurs topologies et des informations obtenues par leurs usagers pour inférer les préférences des usagers ainsi que les types des contenus propagés. Ces inférences seront ensuite utilisées pour proposer aux usagers les contenus les plus pertinents et ce le plus rapidement possible. A ce jour les systèmes de recommandation de contenu aux usagers se basent soit sur le type de contenus (Baeza-Yates and Ribeiro-Neto 1999), (Mooney, Bennet and Roy 1998) : un contenu est recommandé si l’usager a apprécié d’autres contenus similaires, soit sur la notion du filtrage collaboratif (Shardanand and Maes 1995), (Goldberg, et al. 2001) : un contenu est recommandé si d’autres usagers similaires ont apprécié le contenu. Or, ces systèmes dépendent fortement du classement des contenus déjà reçus, lequel pour sa part dépend de la topologie du réseau social sur lequel les contenus se propagent. L’objectif est la conception d’un système de recommandation en exploitant la structure du réseau ainsi que le classement des contenus par les usagers. Les compromis de performance entre la rapidité avec laquelle la recommandation peut être faite et la pertinence de cette recommandation seront étudiés. Sur le plan méthodologique, la catégorisation de contenus et d’usagers pourra être abordée soit au moyen de méthodes dites spectrales (Tomozei, Massoulié and Marbach 2008), soit au moyen de méthodes de complétion de matrices (Candès and Recht 2008). Ces méthodes analytiques permettent d’extraire des informations sur l’ensemble de la catégorisation à partir d’un échantillon de données. Il s’agira d’établir dans quelle mesure les conditions techniques requises pour l’applicabilité des résultats précédents tels que ceux de (Candès and Recht 2008) sont vérifiées dans le contexte de propagation épidémique de cette thèse. Si ces techniques ne sont pas applicables, on s’attachera à développer de nouvelles techniques pertinentes pour ce contexte.
Enfin,les méthodes développées dans cette thèse seront testées sur
Doctorant.e: Leconte Mathieu