Asma Zgolli | LIG - Université Grenoble Alpes

Lundi 23 Août 2021

Recommandation de placement de données pour les traitements dans des lacs de données Smartgrids

Résumé :
Cette thèse porte sur l’optimisation de l’accès aux masses de données générées et/ou exploitées dans la gestion des réseaux de distribution électriques intelligents ou smart grids. Ces masses de données (mesures brutes, données raffinées, historiques, etc.) sont en pratique représentées dans des modèles de données très variés (relationnel, clé-valeur, documents, graphes, etc.) et stockées dans des systèmes Big Data très hétérogènes. En effet ces systèmes offrent des fonctionnalités variés (par exemple, certains ne peuvent effectuer une jointure), des structures de données (pour le stockage, l’indexation), des algorithmes et des performances très différentes.
L’objectif de cette thèse est d’aborder l’optimisation de workflow de traitements sur ces ensembles de données par la recommandation de placement des données sur les systèmes les plus appropriés de façon à minimiser le temps total d’exécution et en se basant sur des métadonnées décrivant les ensembles de données, les workflows et les systèmes de stockage et de traitement. Le temps total d’exécution est composé du temps de transformation et de déplacement des données, et du temps d’exécution des requêtes réécrites en fonction de ces transformations. En effet, nous explorons également la possibilité de déplacer les données d’un système à un autre s’il offre des caractéristiques intéressantes pour favoriser l’exécution des requêtes des workflows.
L’étude des techniques utilisées dans les systèmes de gestion de masses de données et des systèmes d’intégration/de médiation de masses de données nous a convaincus de l’impossibilité de définir un modèle d’estimation de coût d’exécution de plans de requêtes universel qui permette de comparer les performances des différents systèmes. Une approche intéressante est d’utiliser des techniques d’apprentissage automatique pour cela.
Nous proposons donc une approche, nommé DWS – pour Data, Workloads and Systems –, qui explore les différentes combinaisons de systèmes pour exécuter un workflow en éliminant les solutions où les systèmes ne peuvent exécuter tous les opérateurs d’une requête (condition de faisabilité) et qui respecte les règles métier quant au point de stockage des données initiales, intermédiaires ou finales (condition de conformité). L’estimation du temps d’exécution des différentes requêtes (de transformation de données ou extraites du workflow) se base sur l’injection de statistiques dans les systèmes, pour simuler l’exécution et ainsi récupérer les plans optimaux et éventuellement les estimations de coût, et l’estimation du temps d’exécution par apprentissage en incluant toutes les métadonnées utiles concernant les jeux de données, les workloads et les systèmes.

Date et Lieu

Le Lundi 23 Août 2021 à 10h
https://grenoble-inp.zoom.us/j/95831584607

Organisé par

Asma ZGOLLI
Equipe SLIDE

Supervisé par

Christine COLLET
Genoveva VARGAS-SOLAR
Christophe BOBINEAU

Membres du jury

Ioana MANOLESCU
Rapporteuse
Ladjel BELLATRECHE
Rapporteur
Frédérique LAFOREST
Examinatrice
Nicolas TRAVERS
Examinateur