Valentin Reis - Apprentissage pour le contrôle de plateformes parallèles à large échelle

14:00
Vendredi
28
Sep
2018
Organisé par : 
Valentin Reis
Intervenant : 
Valentin Reis
Résumé : 

Fournir les infrastructures de calcul nécessaires à la résolution des problèmes complexes de la société moderne constitue un défi stratégique. Les organisations y répondent classiquement en mettant en place de larges infrastructures de calcul parallèle et distribué. Les vendeurs de systèmes de Calcul Hautes Performances sont incités par la compétition à produire toujours plus de puissance de calcul et de stockage, ce qui mène à des plateformes ”Petascale“ spécifiques et sophistiquées, et bientôt à des machines ”Exascale“. Ces systèmes sont gérés de manière centralisée à l'aide de solutions logicielles de gestion de jobs et de ressources dédiées. Un problème crucial auquel répondent ces logiciels est le problème d’ordonnancement, pour lequel le gestionnaire de ressources doit choisir quand, et sur quelles ressources exécuter quelle tache calculatoire. Cette thèse fournit des solutions à ce problème. Toutes les plateformes sont différentes. En effet, leur infrastructure, le comportement de leurs utilisateurs et les objectifs de l'organisation hôte varient. Nous soutenons donc que les politiques d’ordonnancement doivent s’adapter au comportement des systèmes.  Dans ce manuscrit, nous présentons plusieurs manières d’obtenir cette capacité d'adaptation. A travers une approche expérimentale, nous étudions plusieurs compromis entre la complexité de l'approche, le gain potentiel, et les risques pris.