Projet de recherche doctoral numero :4521

Description

Date depot: 1 janvier 1900
Titre: Analyse Topologique de Données In-Situ
Directeur de thèse: Julien TIERNY (LIP6)
Domaine scientifique: Sciences et technologies de l'information et de la communication
Thématique CNRS : Non defini

Resumé: La simulation numérique 3D s'est imposée ces dernières années dans de nombreux domaines comme un outil indispensable pour la découverte scientifique. Le calcul de simulations numériques 3D requiert souvent l'utilisation de super-calculateurs. Le résultat de ce type de calcul est typiquement représenté par une géométrie 3D (maillage tétraédrique, grille régulière, etc.) sur laquelle sont définies des fonctions scalaires représentant des grandeurs calculées par la simulation (température, pression, etc.). Ensuite, ces résultats sont traditionnellement transférés sur la station de travail de l'utilisateur pour leur post-traitement: visualisation et analyse géométrique. Cette méthodologie globale s'avère cependant incompatible avec les caractéristiques de la nouvelle génération de super-calculateurs à venir (2018), devant attendre des performances de l'ordre de $10^{18}$ opérations par seconde (ExaScale). Les prévisions actuelles [19] font état de déséquilibres croissants entre l'accroissement de ces puissances de calcul et l'amélioration des débits de transferts ou de sauvegarde sur support permanent (disque dur). Ainsi, les super-calculateurs ExaScale produiront des résultats de simulations à des rythmes plusieurs ordres de grandeurs supérieurs à ceux de leur transfert réseau ou même de leur sauvegarde sur disque dur. Dans ce scénario, le post-traitement traditionnel off-line (sur une station de travail distante) n'est plus envisageable, étant donné ce goulot d'étranglement majeur. Il est donc nécessaire de déplacer les algorithmes de post-traitement (visualisation et analyse géométrique) au plus près de la simulation de manière à contourner ce goulot d'étranglement. En particulier, pour minimiser le recours à la sauvegarde et au transfert réseau, il devient nécessaire d'exécuter les algorithmes de post-traitement (dont les données de sortie sont de faible taille) sur les mêmes infrastructures de calcul que la simulation, pendant que celle-ci s'exécute. On parle alors de *Visualisation In-Situ* [33]. Kitware Inc. [1], société développant les environnements de visualisation open-source Visualization ToolKit [2] et ParaView [3], et dont Kitware SAS est la filiale européenne, s'est rapidement positionnée sur ce segment en développant la bibliothèque Catalyst [4]. Cet outil permet d'exécuter un pipeline complet de visualisation et d'analyse depuis un code de simulation, et ce avec un minimum d'intrusion. Cette bibliothèque est aujourd'hui utilisée par de nombreux clients de Kitware (EDF, CEA et grands comptes internationaux). Pour qu'un algorithme de visualisation soit utilisable de manière optimale dans un contexte in-situ, il faut que celui-ci présente les caractéristiques suivantes: - Exécution parallèle (multi-coeurs) et distribuée (multi-noeuds) pour profiter au maximum du potentiel de calcul des super-alculateurs; - Exécution interruptible pour permettre un contrôle de l'ordonnancement et de la répartition des ressources de calcul entre simulation et analyse. Cependant, tous les algorithmes de visualisation ne présentent pas ces caractéristiques. En particulier, les algorithmes d'analyse topologique [24] (outils fondamentaux en visualisation et analyse de données) sont difficilement parallélisables et non-interruptibles. L'objet de cette thèse CIFRE est donc de re-penser intégralement ce type d'algorithmes pour les rendre compatibles avec une utilisation In-Situ et de les mettre en oeuvre dans le cadre de l'outil ParaView/Catalyst de Kitware, augmentant ainsi substantiellement ses fonctionnalités.

Doctorant.e: Gueunet Charles