Projet de recherche doctoral numero :3323

Description

Date depot: 1 janvier 1900
Titre: Routage des transactions dans les bases de données à large échelle
Directrice de thèse: Anne DOUCET (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: La réplication dans les bases de données a été largement étudiée, au cours des trois dernières décennies. Elle vise à améliorer la disponibilité des données et à augmenter la performance d’accès aux données. Un des défis majeurs de la réplication est de maintenir la cohérence mutuelle des répliques, lorsque plusieurs d’entre elles sont mises à jour, simultanément, par des transactions. Des solutions qui relèvent partiellement ce défi pour un nombre restreint de bases de données reliées par un réseau fiable existent. Toutefois, ces solutions ne sont pas applicables à large échelle. Par ailleurs, l’antinomie entre les besoins de performances et ceux de cohérence étant bien connue, l’approche suivie dans cette thèse consiste à relâcher les besoins de cohérence afin d’améliorer la performance d’accès aux données. Or, dans le contexte du web2.0, de nombreuses applications tolèrent une cohérence relâchée et acceptent de lire des données qui ne sont pas nécessairement les plus récentes ; cela ouvre la voie vers de nouvelles solutions offrant de meilleures performances en termes de débit transactionnel, latence, disponibilité des données et passage à l’échelle. Par exemple, il est possible de gérer des transactions de vente aux enchères (sur eBay ou Google Adsense) sans nécessairement accéder à la dernière proposition de prix, puisque l’enchère est sous pli cacheté. Dans cette thèse, nous considérons des applications transactionnelles déployées à large échelle et dont les données sont hébergées dans une infrastructure très dynamique telle qu’un système pair-à-pair. Nous cherchons à améliorer les performances des applications en contrôlant la cohérence des données accédées, en équilibrant la charge des répliques et en tenant compte de la disponibilité des ressources (SGBD, gestionnaire de transactions). Nous proposons une solution intergicielle qui rend transparente la distribution et la duplication des ressources mais aussi leur indisponibilité temporaire. Notre solution préserve l’autonomie des applications qui demeurent inchangées, sans qu’aucune modification interne du SGBD ne soit nécessaire. Les applications spécifient leurs exigences en termes de besoin de cohérence, puis l’intergiciel honore ces exigences en contrôlant le routage des transactions et l’état des ressources. Nous définissons deux protocoles pour maintenir la cohérence globale, en fonction de la connaissance des données manipulées par les transactions. Le premier protocole ordonne les transactions à partir de la définition a priori des données accédées. Le deuxième protocole détermine un ordre plus souple, en comparant les données accédées, le plus tardivement possible, juste avant la validation des transactions. De plus, nous avons complété notre solution en concevant un catalogue entièrement décentralisé et passant à l’échelle pour gérer les métadonnées nécessaires au routage des transactions. Toutes les solutions proposées tolèrent les pannes franches, fonctionnalité essentielle pour que les résultats de cette thèse puissent être mis en œuvre à très large échelle. Finalement, nous avons implémenté nos solutions pour les valider expérimentalement. Les tests de performances montrent que la gestion des métadonnées est efficace et améliore le débit transactionnel. Nous montrons également que la redondance de l’intergiciel diminue le temps de réponse face aux situations de pannes.

Doctorant.e: Sarr Idrissa