Aller au contenu principal

Anderson Augusma

Vendredi 16 Janvier 2026

Reconnaissance des émotions au niveau du groupe en conditions naturelles : vers une approche non individuelle respectueuse de la vie privée

Résumé

Cette thèse aborde le défi de la reconnaissance des émotions de groupe (GER) en conditions naturelles. Les approches traditionnelles de la reconnaissance des émotions s’appuient souvent sur des indices individuels tels que la reconnaissance faciale, le suivi du regard ou le profilage vocal. Bien qu’efficaces dans certains contextes, ces méthodes soulèvent de sérieuses préoccupations en matière de confidentialité et de surveillance. Pour surmonter ces limites, cette thèse donne la priorité à la préservation de la vie privée en exploitant uniquement des signaux audiovisuels collectifs, se concentrant sur la reconnaissance des émotions au niveau du groupe plutôt qu’au niveau individuel. L’objectif global est de développer des modèles multimodaux capables de déduire les émotions d’un groupe tout en évitant les risques de manipulation et de surveillance individuelle. Deux modélisations complémentaires sont proposées pour atteindre cet objectif. La première introduit une architecture multimodale à attention croisée pour la fusion audio-vidéo, combinée à une stratégie de Frames Attention Pooling (FAP). Cette modélisation est en outre soutenue par l’augmentation des données synthétiques et validée par des études d’ablation approfondies. Ces expériences démontrent son efficacité et sa robustesse pour le GER dans des conditions réelles. La seconde, le Variational Encoder Multi-Decoder (VE-MD), introduit un espace latent partagé optimisé conjointement pour la classification des émotions et la prédiction de la représentation structurelle du corps et du visage. Deux stratégies de décodage de la représentation structurelle sont explorées : celle basée sur DETR et celle basée sur la carte thermique, mettant en évidence leurs forces et leurs limites respectives dans des contextes de groupe et hors groupe. Une analyse détaillée révèle comment l’intégration de la représentation structurelle a un impact différent sur le GER par rapport au non-GER. Les contributions scientifiques de cette thèse sont triples. Premièrement, elle apporte de nouvelles perspectives sur le rôle de la multimodalité et des indices basés sur la représentation structurelle pour la reconnaissance affective au niveau du groupe, en clarifiant comment les contextes de groupe et individuels divergent dans leurs exigences et leurs défis. Deuxièmement, elle fait progresser la conception méthodologique grâce à l’introduction de deux modélisations complémentaires : un modèle de fusion d’attention croisée avec FAP pour l’agrégation temporelle, et VE-MD comme espace latent généralisable pour l’apprentissage multitâche. Troisièmement, elle établit un paradigme de préservation de la vie privée pour le GER, montrant que des performances compétitives ou de pointe peuvent être obtenues sans s’appuyer sur des caractéristiques individuelles comme des données d’entrée.

Date et lieu

Vendredi 16 Janvier à 14:00
Auditorium, bâtiment IMAG
Et zoom

Composition du jury

Rapporteurs
Alessandro VINCIARELLI
Full Professor, University of Glasgow
Antitza DANTCHEVA
Directrice de Recherche, Centre de l’INRIA Université Côte d’Azur à Sophia Antipolis

Examinateurs
Christine KERIBIN
Professeure des Universités, Université Paris-Saclay
Bernd DUDZIK
Assistant professor, Delft University of Technology (TU Delft)
Didier SCHWAB
Professeure des Universités, Université Grenoble Alpes

Encadrants de Thèse
Dominique VAUFREYDAZ
Professeur des Universités, Université de Grenoble Alpes
Frédérique LETUE
Maitresse de Conférence, Université de Grenoble Alpes

Publié le 8 janvier 2026

Mis à jour le 9 janvier 2026