Louis Airale | LIG - Université Grenoble Alpes

Lun 4 Décembre 2023

Modèles adverses pour la génération de données d'interaction humaine

Résumé:

L'objectif de cette thèse est d'explorer de nouvelles architectures de modèles génératifs profonds pour la génération de données d'interaction humaine. Les applications de tels modèles sont multiples, robots sociaux, animation ou encore divertissement, mais ont pour point commun de tendre à rendre plus naturelles les interactions entre l'humain et la machine. De par le réalisme de leurs résultats et leurs nombreuses applications, les modèles génératifs profonds offrent un cadre de travail idéal pour cette tâche. En retour, l’adaptation de ces modèles aux spécificités et aux contraintes liées aux données d’interaction humaine permet d’apprendre comment améliorer leur entraînement.

Dans cette thèse sont considérées trois tâches de génération, pour autant de modalités de données ou de méthodes de conditionnement. Premièrement, les interactions sont traitées comme des séquences discrètes d’actions réalisées simultanément par un nombre indéterminé de participants. Puis on modélisera les dynamiques de la tête et des expressions du visage d’une personne en train de dialoguer à partir d’une seule pose initiale. On s’intéressera enfin à la génération des ces mêmes dynamiques à partir d’un signal audio de conditionnement, en veillant à synchroniser les mouvements de la tête et des lèvres avec le signal de parole.

De manière remarquable, des modèles génératifs adverses autorégressifs assez proches obtiennent des performances de tout premier ordre sur ces tâches par ailleurs relativement hétérogènes. L’entraînement de ces modèles peut cependant se révéler instable, en particulier lorsque le signal de conditionnement est faible ou absent. La première contribution de cette thèse consiste donc en l’élaboration d’un modèle adverse génératif (GAN) autorégressif pour la génération d’interactions discrètes, assorti d’un discriminateur centré sur de courtes fenêtres temporelles permettant d’accélérer l’entraînement et d’améliorer la qualité des résultats. Cette approche est ensuite étendue à la génération continue de la dynamique du visage, pour laquelle est exploitée la capacité des modèles autorégressifs à représenter des sommes grâce à des connexions résiduelles. Pour cette tâche de génération sans conditionnement, générer et discriminer conjointement des paires d’échantillons s’avère essentiel pour fiabiliser les résultats sur de longues séquences et réduire le "mode collapse" lié aux GAN. Dans un troisième et dernier chapitre est proposée une approche multi-échelle à la fois dans l’objectif et l'architecture d'un modèle adverse autorégressif pour générer, pour la première fois, des mouvements de la tête et des lèvres corrélés avec le signal de parole à de multiples échelles temporelles.

Des expériences conduites sur des jeux de données standards et pour différentes modalités d’interaction illustrent l’efficacité des méthodes proposées.

Date et Lieu

Lundi 4 décembre à 9h,
Grand Amphithéâtre de l'Inria

Superviseurs

Dominique VAUFREYDAZ
(M-PSI, LIG)
Xavier ALAMEDA-PINEDA
(RobotLearn, Inria)

Composition du Jury

Hayley HUNG
Delft University of Technology, Associate Professor (Rapporteur)

Renaud SEGUIER
Centrale-Supélec, Professor, HDR (Rapporteur)

Damien TENEY
Idiap Research Institute, Research Scientist (Examinateur)

Laure SOULIER
Sorbonne Université, Maître de conférences, HDR (Examinatrice)

George QUENOT
Université Grenoble Alpes, Professor, HDR (Examinateur)

Massih-Rezah AMINI
Université Grenoble Alpes, Professor, HDR (Examinateur)

Dominique VAUFREYDAZ
Université Grenoble Alpes, Maître de conférences, HDR (Encadrant)