Aller au contenu principal

Rottana LY

Jeudi 30 novembre 2023

Vers l'invariance à la rotation pour les réseaux de neurones : application à la détection de (pose de) personnes

Résumé :

Les réseaux neuronaux actuels ont atteint des performances significatives dans de nombreuses tâches de vision, notamment la détection d'objets et l'estimation de la pose de personnes. Cependant, la détection d'objets à différentes orientations, avec des occlusions partielles et à plusieurs échelles reste des défis scientifiques. Cette thèse s’intéresse au problème non résolu de l'invariance à la rotation dans les réseaux de neurones. Dans les applications réelles, versus les données disponibles pour l’apprentissage, les objets ou les personnes à détecter peuvent se trouver dans n’importe quelle orientation dans l’image à analyser. C’est par exemple le cas dans le cadre du maintien de personnes âgées/fragiles à domicile, lorsqu’un robot compagnon cherche une personne qui a potentiellement chuté : celui-ci doit pouvoir la détecter quel que soit son orientation dans l’image, et un réseau de neurones invariant à la rotation est d’intérêt dans ce cas.  

Pour résoudre le problème de l’invariance à la rotation, plusieurs approches ont déjà été proposées dans la littérature dans d’autres contextes. Les approches de correction internes des paramètres et les approches d’orientation locales de la personne ne permettent pas de résoudre le problème de l’invariance à la rotation. Notre proposition de correction globale de l’orientation de l’image offre de meilleurs résultats à différentes orientations, mais un prétraitement des données est nécessaire.
Des approches de calcul de caractéristiques multi-orientations ont données de bons résultats pour la classification d'images, mais ne s’applique pas avec succès sur des tâches comme la détection d’objets ou de (pose de) personnes. Pour prendre en compte la représentation spatiale de l'objet, nous proposons « Spatial Wise Rotation Invariant Transformer (SWRIT) » qui permet le calcul de caractéristiques invariantes à la rotation grâce à une attention sensible à l’orientation tout en gardant l’organisation spatiales de celles-ci. SWRIT peut être intégré dans n'importe quelle architecture neuronale convolutive ou à base de transformers, encadrant le réseau principal d'extraction de caractéristiques et permettant l'apprentissage de caractéristiques moins sensibles à la rotation. A partir d’expérimentations réalisées avec COCOR, un ensemble de données d'évaluation de l'invariance à la rotation que nous proposons à la communauté, nous montrons que SWRIT améliore les performances de réseaux neuronaux actuels en ce qui concerne la robustesse la rotation.

 

Mots clés : réseaux de neurones, détection de personnes, détection de pose, invariance à la rotation

Date et Lieu

Jeudi 30 novembre 2023 à 8h30
Amphithéâtre Jacques Cartier (Maison des langues et des cultures, 1er étage
et Zoom

Composition du Jury

Dirigé par
Dominique VAUFREYDAZ (LIG/M-PSI)
codirigée par
Éric CASTELLI (LIG/M-PSI)
co-encadré par
Sethserey SAM (CADT-Cambodge)


Composition du jury

Cédric BUCHE
Professeur des Universités, École Nationale d'Ingénieurs de Brest (Rapporteur)
François CHARPILLET
Directeur de Recherche, INRIA Nancy-Grand Est (Rapporteur)  
ANNE SPALANZANI
Professeur des Universités, Université Grenoble Alpes (Présidente du jury)  
ANTITZA DANTCHEVA
Chargée de Recherche, INRIA Sophia Antipolis Méditerranée (Examinatrice)  
Dominique VAUFREYDAZ
Maître de Conférences, Université Grenoble Alpes (Directeur de thèse)   
Éric CASTELLI
Chargé de Recherche, Université Grenoble Alpes (Co-Directeur de thèse)  


 

Publié le 24 novembre 2023

Mis à jour le 24 novembre 2023