Apprentissage par Renforcement Profond pour l'Optimisation du Contrôle et de la Gestion des Bâtiment
- Share
- Share on Facebook
- Share on X
- Share on LinkedIn
Jeudi 26 octobre 2023
Les systèmes de chauffage, de ventilation et de climatisation (CVC) consomment une quantité important d'énergie dans les bâtiments. Les approches conventionnelles utilisées pour contrôler les systèmes CVC reposent sur un contrôle basé sur des règles (RBC) qui consiste en des règles prédéfinies établies par un expert. Le contrôle prédictif par modèle (MPC), largement exploré dans la littérature, n'est pas adopté par l'industrie car il s'agit d'une approche basée sur un modèle qui nécessite de construire au préalable des modèles du bâtiment qui sont utilisés dans la phase d'optimisation. Cette construction initiale de modèle est coûteuse et il est difficile de maintenir ces modèles au cours de la vie du bâtiment. Au cours de la thèse, nous étudions l'apprentissage par renforcement (RL) pour optimiser la consommation d'énergie des systèmes CVC tout en maintenant un bon confort thermique et une bonne qualité de l'air. Plus précisément, nous nous concentrons sur les algorithmes d'apprentissage par renforcement sans modèle qui apprennent en interagissant avec l'environnement (le bâtiment, y compris le système CVC) et qui ne nécessitent donc pas de modèles précis de celui-ci. En outre, les approches en ligne sont prises en compte. Le principal défi d'un RL sans modèle en ligne est le nombre de jours nécessaires à l'algorithme pour acquérir suffisamment de données et de retours d'actions pour commencer à agir correctement. L'objectif de cette thèse est d'accélérer l'apprentissage les algorithmes RL sans modèle pour converger plus rapidement afin de les rendre applicables dans les applications du monde réel, le contrôle du chauffage, de la ventilation et de la climatisation. Deux approches ont été explorées au cours de la thèse pour atteindre notre objectif : la première approche combine la RBC avec la RL basé sur la valeur, et la seconde approche combine les règles floues avec le RL basé sur la politique. La première approche exploite les règles RBC pendant l'apprentissage, tandis que dans la seconde, les règles floues sont injectées directement dans la politique. Les tests sont effectués sur un bureau simulé, réplique d'un bureau réeel dans le bâtiment de Grenoble INP pendant la période hivernale.
Mots clés
Date et Lieu
Bâtiment IMAG-UGA, Salle séminaire 2
Composition du Jury
Directeur de thèse
PIERRE DE LOOR - PROFESSEUR, EC NAT INGENIEURS BREST
Rapporteur
ROMAIN BOURDAIS - PROFESSEUR, CENTRALESUPELEC RENNES
Rapporteur
MOHAMMED BENBOUZID - PROFESSEUR DES UNIVERSITES, UNIVERSITE DE BREST-BRETAGNE OCCIDENTALE
Examinateur
SIHEM AMER-YAHIA - DIRECTRICE DE RECHERCHE, CNRS DELEGATION ALPES
Examinateur
MASSIH-REZA AMINI - PROFESSEUR DES UNIVERSITES, UNIVERSITE GRENOBLE ALPES
Examinateur
- Share
- Share on Facebook
- Share on X
- Share on LinkedIn