Description
Date depot: 1 janvier 1900
Titre: Langages de haut-niveau pour systèmes DISC et leur optimisation
Directeur de thèse:
Pietro MICHIARDI (Eurecom)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini
Resumé:
L'objectif de cette thèse est de travailler sur les langages de haut niveau pour la spécification des programmes parallèles à exécuter sur des gros volumes de données.
La recherche dans le traitement parallèle de grands ensembles de données (dans laquelle le I/O est le goulot d'étranglement, pas le CPU) a reçu beaucoup d'attention ces dernières années. Popularisé par Google avec leur travail sur les systèmes de traitement de données et par le projet open-source Hadoop, MapReduce - qui constitue le moteur d'exécution initial pour le travail dans cette thèse - est à la fois un modèle de programmation et un environnement d'exécution. En MapReduce, un travail d'analyse de données se compose de trois phases et accepte en entrée un ensemble de données, partitionnées de manière appropriée et stockée dans un système de fichiers distribué. Dans la première phase, dite MAP, une fonction définie par l'utilisateur est appliquée en parallèle à des partitions d'entrée pour produire des données intermédiaires qui sont stockées sur le système de fichiers local de chaque ordinateur du cluster de calcul; les données intermédiaires sont triées et répartis lors de l'écriture sur le disque. Ensuite, au cours de la phase SHUFFLE, les données intermédiaires sont 'dirigée' vers les machines responsables de l'exécution de la dernière phase, appelée REDUCE. Dans cette phase, les données intermédiaires sont triées et regroupées pour produire des données de sortie, qui sont écrites sur le système de fichiers distribué.
Doctorant.e: Phan Duy Hung