Jeudi 14 Novembre 2024
- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn
Garanties théoriques et amélioration de la classification multi-tâches semi-supervisée en grande dimension
Résumé :
Dans le domaine de l’apprentissage machine, le sous-domaine spécifique de l’apprentissage profond a fait l’objet d’un intérêt particulier au cours de la dernière décennie. Si l’apprentissage profond a permis des avancées significatives dans de nombreux domaines, ces avancées se sont faites au détriment de l’interprétabilité, de l’accessibilité, de la robustesse et de la flexibilité, sans parler des effets rebonds associés, en terme de déploiement de centre de données et de consommation énergétique, induits par l’entraînement de tels algorithmes. Dans ce contexte, l’objectif de ce manuscrit est à l’inverse d’ouvrir la voie à des outils maîtrisables et flexibles pour résoudre des problèmes de classification, qui s’appuient sur des notions élémentaires d’apprentissage statistique et des outils mathématiques assez accessibles. Cette thèse mène une analyse statistique en grande dimension d’un modèle de classification à la fois simple et versatile, qui unifie dans un même modèle l’apprentissage multi-tâches et l’apprentissage semi-supervisé, et qui prend en compte la possibilité d’étiqueter les données de manière incertaine. En utilisant des outils issus de la théorie des matrices aléatoires, les statistiques asymptotiques de certaines fonctions clés sont caractérisées, ce qui permet d’une part de prédire les performances de l’algorithme proposé, et d’autre part de révéler certaines astuces contre-intuitives sur la manière de l’utiliser efficacement. Le modèle, suffisamment puissant pour donner de bonnes garanties de performance, est aussi suffisamment lisible pour apporter de bonnes intuitions sur son fonctionnement. L’algorithme produit est également comparé à une borne optimale issue de la physique statistique, qui donne une borne inférieure de la plus petite probabilité d’erreur atteignable pour un problème donné. Cette borne est calculée dans le cas étendu de l’étiquetage incertain, et est utilisée pour évaluer les performances de l’algorithme.
Date et lieu
Jeudi 14 Novembre à 14:00
Amphithéâtre C002 (Frances Allen) de l'ENSIMAG, Bâtiment C
et Zoom
Composition du jury
Pierre Borgnat
Directeur de recherche, Ecole Normale Supérieure de Lyon (Rapporteur)
Guillaume GINOLHAC
Professeur des universités, Polytech Annecy-Chambéry (Rapporteur)
Abla Kammoun
Senior scientist, King Abdullah University of Science and Technology (Examinatrice)
Paulo Gonçalves
Directeur de recherche, Ecole Normale Supérieure de Lyon (Examinateur)
Florent Chatelain
Maître de conférences, Université Grenoble Alpes (Examinateur)
Jean-François Coeurjolly
Professeur des universités, Université Grenoble Alpes (Examinateur)
Romain Couillet
Professeur des universités, Université Grenoble Alpes (Directeur de thèse)
- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn