Aller au contenu principal

Amal Gueroudji

Distributed Task-based In Situ Data Analytics for High Performance Simulations

Vendredi 26 Mai 2023

Résumé:

Sur les systèmes à grande échelle, l'écart entre les performances des CPU et la de bande passante des disques ne cesse d'augmenter. Dans certains domaines, tels que les prévisions météorologiques et la fusion nucléaire, les modèles numériques génèrent des grandes quantités de données qu'un traitement post hoc classique n'est plus possible en raison des limites de la capacité de stockage et de la performance des entrées-sorties. Les approches in situ sont intéressantes pour contourner les accès aux disques dans ces cas et tirer pleinement parti de la plateforme HPC. Cependant, elles sont souvent complexes à mettre en place et peuvent nécessiter de redévelopper des versions parallèles des analyses.
Dans notre travail, nous proposons un modèle  qui est bien adapté aux traitements in situ ou nous couplons le modele MPI pour la simulation avec un paradigme par tâches distribuées pour l'analyse. Cela permet de réduire la complexité et de tirer le meilleur parti de chacun de ces deux paradigmes puissants. Nous proposons un modèle de couplage des deux paradigmes et le validons à l'aide d'un prototype appelé DEISA, qui permet de coupler des codes parallèles MPI avec des analyses écrites en Dask distribué.
Le modèle ne nécessite que des modifications minimales des codes de simulation et d'analyse par rapport à leurs équivalents post hoc. Il donne accès à tout l'écosystème déjà existant à utiliser en in situ, comme les versions parallèles de Numpy, Pandas et scikit-learn.
Nous introduisons de nouveaux concepts dans Dask distribué pour prendre en charge les analyses in situ de manière native. L'approche a été évaluée et comparée à des analyses post hoc sur deux supercalculateurs, et DEISA a été utilisé dans des cas de production.  Les résultats sont intéressants et montrent de bonnes performances avec un minimum d'efforts de codage.

Date et Lieu

Vendredi 26 Mai 2023 à 14h
Maison de la simulation, au Bât. 565 - CEA Saclay 91191 Gif-sur-Yvette

Composition du Jury

Gabriel ANTONIU
Rapporteur
Laurent COLOMBET
Rapporteur
Yves DENNEULIN
Président du jury
Robert ROSS
Examinateur
Virginie GRANDGIRARD
invitée
Bruno RAFFIN
Directeur de thèse
Julien BIGOT
Co-encadrant the thèse

Publié le 5 juin 2023

Mis à jour le 5 juin 2023