Lundi 23 Août 2021
- Share
- Share on Facebook
- Share on X
- Share on LinkedIn
Recommandation de placement de données pour les traitements dans des lacs de données Smartgrids
Résumé :
Cette thèse porte sur l’optimisation de l’accès aux masses de données générées et/ou exploitées dans la gestion des réseaux de distribution électriques intelligents ou smart grids. Ces masses de données (mesures brutes, données raffinées, historiques, etc.) sont en pratique représentées dans des modèles de données très variés (relationnel, clé-valeur, documents, graphes, etc.) et stockées dans des systèmes Big Data très hétérogènes. En effet ces systèmes offrent des fonctionnalités variés (par exemple, certains ne peuvent effectuer une jointure), des structures de données (pour le stockage, l’indexation), des algorithmes et des performances très différentes.
L’objectif de cette thèse est d’aborder l’optimisation de workflow de traitements sur ces ensembles de données par la recommandation de placement des données sur les systèmes les plus appropriés de façon à minimiser le temps total d’exécution et en se basant sur des métadonnées décrivant les ensembles de données, les workflows et les systèmes de stockage et de traitement. Le temps total d’exécution est composé du temps de transformation et de déplacement des données, et du temps d’exécution des requêtes réécrites en fonction de ces transformations. En effet, nous explorons également la possibilité de déplacer les données d’un système à un autre s’il offre des caractéristiques intéressantes pour favoriser l’exécution des requêtes des workflows.
L’étude des techniques utilisées dans les systèmes de gestion de masses de données et des systèmes d’intégration/de médiation de masses de données nous a convaincus de l’impossibilité de définir un modèle d’estimation de coût d’exécution de plans de requêtes universel qui permette de comparer les performances des différents systèmes. Une approche intéressante est d’utiliser des techniques d’apprentissage automatique pour cela.
Nous proposons donc une approche, nommé DWS – pour Data, Workloads and Systems –, qui explore les différentes combinaisons de systèmes pour exécuter un workflow en éliminant les solutions où les systèmes ne peuvent exécuter tous les opérateurs d’une requête (condition de faisabilité) et qui respecte les règles métier quant au point de stockage des données initiales, intermédiaires ou finales (condition de conformité). L’estimation du temps d’exécution des différentes requêtes (de transformation de données ou extraites du workflow) se base sur l’injection de statistiques dans les systèmes, pour simuler l’exécution et ainsi récupérer les plans optimaux et éventuellement les estimations de coût, et l’estimation du temps d’exécution par apprentissage en incluant toutes les métadonnées utiles concernant les jeux de données, les workloads et les systèmes.
Cette thèse porte sur l’optimisation de l’accès aux masses de données générées et/ou exploitées dans la gestion des réseaux de distribution électriques intelligents ou smart grids. Ces masses de données (mesures brutes, données raffinées, historiques, etc.) sont en pratique représentées dans des modèles de données très variés (relationnel, clé-valeur, documents, graphes, etc.) et stockées dans des systèmes Big Data très hétérogènes. En effet ces systèmes offrent des fonctionnalités variés (par exemple, certains ne peuvent effectuer une jointure), des structures de données (pour le stockage, l’indexation), des algorithmes et des performances très différentes.
L’objectif de cette thèse est d’aborder l’optimisation de workflow de traitements sur ces ensembles de données par la recommandation de placement des données sur les systèmes les plus appropriés de façon à minimiser le temps total d’exécution et en se basant sur des métadonnées décrivant les ensembles de données, les workflows et les systèmes de stockage et de traitement. Le temps total d’exécution est composé du temps de transformation et de déplacement des données, et du temps d’exécution des requêtes réécrites en fonction de ces transformations. En effet, nous explorons également la possibilité de déplacer les données d’un système à un autre s’il offre des caractéristiques intéressantes pour favoriser l’exécution des requêtes des workflows.
L’étude des techniques utilisées dans les systèmes de gestion de masses de données et des systèmes d’intégration/de médiation de masses de données nous a convaincus de l’impossibilité de définir un modèle d’estimation de coût d’exécution de plans de requêtes universel qui permette de comparer les performances des différents systèmes. Une approche intéressante est d’utiliser des techniques d’apprentissage automatique pour cela.
Nous proposons donc une approche, nommé DWS – pour Data, Workloads and Systems –, qui explore les différentes combinaisons de systèmes pour exécuter un workflow en éliminant les solutions où les systèmes ne peuvent exécuter tous les opérateurs d’une requête (condition de faisabilité) et qui respecte les règles métier quant au point de stockage des données initiales, intermédiaires ou finales (condition de conformité). L’estimation du temps d’exécution des différentes requêtes (de transformation de données ou extraites du workflow) se base sur l’injection de statistiques dans les systèmes, pour simuler l’exécution et ainsi récupérer les plans optimaux et éventuellement les estimations de coût, et l’estimation du temps d’exécution par apprentissage en incluant toutes les métadonnées utiles concernant les jeux de données, les workloads et les systèmes.
Date et Lieu
Le Lundi 23 Août 2021 à 10h
https://grenoble-inp.zoom.us/j/95831584607
Organisé par
Asma ZGOLLI
Equipe SLIDE
Equipe SLIDE
Supervisé par
Christine COLLET
Genoveva VARGAS-SOLAR
Christophe BOBINEAU
Genoveva VARGAS-SOLAR
Christophe BOBINEAU
Membres du jury
Ioana MANOLESCU
Rapporteuse
Ladjel BELLATRECHE
Rapporteur
Frédérique LAFOREST
Examinatrice
Nicolas TRAVERS
Examinateur
Rapporteuse
Ladjel BELLATRECHE
Rapporteur
Frédérique LAFOREST
Examinatrice
Nicolas TRAVERS
Examinateur
- Share
- Share on Facebook
- Share on X
- Share on LinkedIn