Description
Date depot: 1 janvier 1900
Titre: Phénomènes de diffusion sur les grands réseaux : mesure et analyse pour la modélisation.
Directeur de thèse:
Matthieu LATAPY (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
La propagation des épidémies, des rumeurs, des virus informatiques, ou la diffusion d'une information (que ce soit sur un réseau informatique ou un réseau social) sont des exemples types de //phénomènes de diffusion//.
Plus formellement, un phénomène de diffusion est défini par :
* un réseau de liens entre entités, par exemple des individus ayant des relations sociales ou des contacts physiques, ou des ordinateurs échangeant des fichiers,
* une information donnant pour chaque entité du réseau son état à tout instant, qui peut typiquement être : //atteint// ou //non atteint//,
* la justification de chaque passage d'un noeud de l'état //non atteint// à l'état //atteint//, ceci étant en général dû à la transmission du virus ou de l'information suivant un des liens du réseau.
Les phénomènes de diffusion, notamment les exemples cités ci-dessus, jouent bien sûr un rôle clé dans de nombreux contextes : sociologie, sécurité informatique, protocoles réseau, santé publique, etc. Ils sont par conséquent au centre d'une intense activité de recherche.
Toutefois il est extrêmement difficile d'avoir une information précise sur la façon dont les processus de diffusion **réels** se produisent : il faudrait connaître le réseau entre les acteurs, les changements d'états et leurs causes, tout ceci au cours du temps et à une échelle suffisament grande pour permettre l'analyse. Aujourd'hui, les données de ce type sont extrêmement rares, souvent très partielles et biaisées.
Par conséquent, à [[http://complexnetworks.fr/videos.php?video_id=7|quelques exceptions]] près, la plupart des travaux concernant les phénomènes de diffusion reposent sur des //modèles//, eux-mêmes issus d'intuitions simples (par exemple l'idée selon laquelle une personne infectée aurait une certaine probabilité de contaminer ses contacts).
La pertinence de ces hypothèses de modélisation n'est toutefois pas avérée, faute de confrontation aux phénomènes de diffusion //réels//. De plus, elle restent nécessairement très vagues car on ne sait pas comment les affiner. Plusieurs voies, parfois antagonistes, sont alors explorées, mais on ne sait pas trancher.
L'équipe [[http://complexnetworks.fr/|Complex Networks]] du LIP6 est impliquée depuis plusieurs années dans la collecte de données riches et à large échelle, dont certaines permettent d'ouvrir des perspectives extrêmement prometteuses pour l'analyse de phénomènes de diffusion //réels//, et donc leur modélisation.
Notamment, l'équipe a mené plusieurs [[http://complexnetworks.fr/publis.php?pub_id=31|campagnes de mesure des échanges pair-à-pair]] qui permettent d'observer la diffusion de centaines de millions de fichiers parmi des dizaines de millions de pairs. D'autres données permettant d'observer des phénomènes de diffusion sont disponibles dans l'équipe, ou seront prochainement collectées.
Le projet de thèse proposé ici vise à utiliser ces données pour obtenir, pour la première fois, des observations quantitatives sur des phénomènes de diffusion réels. L'objectif central est de confronter ces mesures aux modèles existants et ainsi d'évaluer la pertience des hypothèses sous-jacentes. On dégagera ainsi de grands principes, validés par l'observation, pour la modélisation des phénomènes de diffusion.
Dans un premier temps, il s'agira de confronter à la réalité les hypothèses les plus simples, et aussi les plus fondamentales, du domaine. On calculera par exemple les taux de diffusion des noeuds (proportion de leurs voisins auxquels ils diffusent), et on étudiera leur distribution statistique : un taux de diffusion moyen a-t-il un sens, ou une profonde hétérogénéité apparaît-elle ? cette conclusion dépend-elle de l'objet diffusé ou est-elle surtout liée au diffuseur ? ...
Assez rapidement, il sera essentiel d'intégrer la notion d'intensité des relations entre entités, modélisée par un poids associé à chaque lien du réseau. En effet, une information se diffusera certainement plus suivant un lien fort entre deux individus qu'entre deux individus ayant des relations lointaines. La pertinence d'une modélisation de phénomène de diffusion repose certainement sur la prise en compte de telles variations, qui sont aujourd'hui hors de portée pour cause de manque de confrontation aux données réelles.
Enfin, ce projet vise également à étudier l'impact des propriétés structurelles des réseaux sur les phénomènes de diffusion. Par exemple, on sait qu'il existe des noeuds très fortement liés aux autres (beaucoup plus que la moyenne) ; ces noeuds jouent-ils un rôle particulier dans la diffusion, comme on le suppose souvent (mais sans en avoir de confirmation empirique) ? De même, on sait que ces réseaux sont structurés en //communautés// de noeuds densément connectés entre eux mais faiblement connectés à l'extérieur ; comment cela impacte-t-il les phénomènes de diffusion ? ...
Soulignons que, l'approche proposée étant en rupture avec les travaux classiques, les //méthodes// pour calculer les grand
Doctorant.e: Bernardes Daniel