Description
Date depot: 1 janvier 1900
Titre: Cohérence de données répliquées partagées adaptative pour architectures de stockage à fort degré d'élasticité
Directeur de thèse:
Eric GRESSIER-SOUDAN (CEDRIC)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
Projet:
Les systèmes de stockage et de gestion des données sont essentiels dans tous les domaines d’applications de l’entreprise aux villes intelligentes [1]. Le volume des données est tel aujourd’hui que ces systèmes doivent être capables de passer à l’échelle. Ces systèmes exigent aussi une disponibilité stricte et une grande capacité à monter en charge. Dans notre problématique de recherche, nous considérons un contexte où pour faire baisser les coûts, l’architecture de stockage est externalisée et mutualisée suivant le principe du Cloud Computing. Le corollaire de ce choix implique un haut degré d’élasticité [2]. Ces hypothèses correspondent à ce qu’on observe. En effet, de plus en plus de solutions de stockage orientées « cloud » [3] ont fait leur apparition ces dernières années et promettent une grande élasticité, un faible coût et un passage à l’échelle. Ces systèmes constitués d’un réseau de plusieurs serveurs virtuels, sont hébergés et maintenus par des tiers et offrent un stockage en ligne. En terme d’élasticité, le cloud donne l’impression d’avoir à disposition des ressources infinies qui peuvent être enlevées ou ajoutées dynamiquement. Son faible coût provient du modèle 'pay-as-you-go', c’est-à-dire qu’on ne paye que la ressource réellement utilisée.
Malheureusement, les systèmes de stockage « cloud » ne fournissent pas un support complet des transactions et des propriétés ACID (Availability, Consistency, isolation, Durability) sur lesquelles étaient basés les SGBD traditionnels. Par ailleurs, il est bien connu que les systèmes distribués ne peuvent pas fournir à la fois une cohérence forte et assurer une disponibilité des données comme indiqué dans le théorème CAP (Consistency, Availability, Partition Tolerance)[ref]. Ce théorème énonce que tout système distribué peut répondre à une seule contrainte parmi la cohérence (Consistency, i.e tous les noeuds du système voient exactement les mêmes données au même moment) et la disponibilité (Availability, i.e les données sont toujours accessibles même en cas de panne). Par conséquent, les hypothèses traditionnelles, telles que la réplication complète ou le support des transactions, doivent être assouplies. Les solutions existantes diffèrent quant au degré de cohérence des données qu’elles fournissent, un compromis reste à déterminer entre le coût, la cohérence et la disponibilité des données. En effet, une forte cohérence implique un coût élevé par transaction et peut réduire la disponibilité des données. Inversement une faible cohérence peut réduire le coût des transactions mais peut induire des erreurs qui peuvent générer d’autres coûts comme des opérationnels par exemple : vente de produits ou services non disponibles dans une application e-commerce (sur-vente de billets d’avion).
La cohérence dépend fortement de la politique de répartition et de partage des données dans le cloud. La réplication offre aux utilisateurs de meilleures performances, une tolérance aux pannes et une plus grande disponibilité des données par le maintien de plusieurs copies d’une donnée, appelées répliques, sur des sites séparés. Mais la contrepartie est le problème de la synchronisation des répliques lors des modifications. Cette difficulté est accentuée avec le taux de modifications des données (taux d’arrivée des requêtes et/ou transactions) et la volumétrie des données concernées. Les systèmes actuels imposent (Il est généralement d’usage) de définir en amont le taux de réplication des données et une politique de propagation des modifications pour la globalité du système. Or, il existe des applications où les données ne se prévalent pas et où il n’est donc pas nécessaire d’appliquer le même taux de réplication à toutes les données. Par exemple, pour une compagnie aérienne, les données concernant les prix de vol sont importantes et nécessitent une cohérence forte, les données concernant le nombre de places disponibles peuvent être approximatives (cohérence éventuelle ou encore cohérence in fine) jusqu’à un certain seuil où il faut passer à une cohérence forte (pour éviter la surcharge d’un avion). Par ailleurs, on peut appliquer une cohérence faible à certaines informations telles que les préférences des voyageurs quoiqu’une compagnie puisse appliquer aussi une politique de cohérence en fonction du type de classe dans laquelle voyage une personne. De plus, différents accès à de mêmes données pourront avoir différentes contraintes de cohérences. Ainsi pour l’exemple d’achats de billets d’avions, on n’aura pas les mêmes impératifs suivant que l’on accède aux données :
− pour de l’analyse exploratoire à des fins d’optimisation de l’offre globale ;
− pour des suggestions d’achat à un client potentiel ;
− pour réaliser une vente engageant contractuellement l’entreprise.
Enjeux:
La problématique scientifique adressée dans le cadre de cette thèse se propose d’adapter dynamiquement la cohérence des données dans un système de stockage selon un certain
Doctorant.e: Kumar Sathiya Prabhu