Mardi 11 mars 2025
- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn
Random Matrix and Tensor Models for Large Data Processing
RÉSUME DE THÈSE
Face au déploiement massif de l'apprentissage machine permis par la puissance exponentiellement grandissante des ressources de calcul, nous devons faire face à de nouveaux défis en matière de traitement des données. En effet, la dimension de ces dernières atteint des tailles désormais si grandes que l'hypothèse standard en statistiques affirmant un nombre d'individus bien plus grand que leur dimension n'est plus acceptable. Dans le paradigme de l'ère du Big Data, les données collectées sont généralement de très grande dimension et peuvent également comporter plusieurs modes, indiquant une variété de sources, modalités, domaines, etc. De plus, le développement des technologies nécessaires à la mise en oeuvre de modèles capables de traiter des quantités pharamineuses de données implique un coût environnemental et humain catastrophique face auquel il est nécessaire de promouvoir un usage plus raisonné et intelligent de nos ressources.
La théorie des matrices aléatoires fournit des outils puissants pour étudier précisément les limites statistiques et computationnelles associées au traitement de données volumineuses et multidimensionnelles. À travers ce prisme, nous explorons plusieurs approches d'apprentissage afin d'en caractériser les paramètres pertinents pour la réussite d'une tâche et ainsi en permettre un usage informé.
Nous établissons en tout premier lieu un ``théorème central limite'' sur le comportement des entrées des vecteurs propres spikes d'une matrice à noyau de Gram. Il s'agit d'un résultat essentiel pour prédire les performances du clustering spectral qui manquait, jusqu'à présent, dans la littérature.
Ensuite, nous étudions une extension du clustering spectral aux flux de données. Cette approche permet de partitionner un jeu de données potentiellement très grand avec un usage mémoire contrôlé et limité. En plus de dévoiler le comportement spectral exotique du modèle matriciel associé, nos résultats précisent les performances de reconstruction d'un signal observé à travers un flux de données. De plus, nous montrons qu'avec une gestion astucieuse de la mémoire disponible, il est possible d'atteindre des performances comparables à celles obtenues sans contraintes de ressources. Cela permet donc une réduction importante du coût en mémoire par rapport à un clustering spectral standard, pour une perte de performance négligeable.
Enfin, nous nous intéressons aux limites computationnelles de l'estimation tensorielle et, en particulier, de l'approximation de petit rang. À travers l'étude des matrices obtenues en dépliant un tenseur aléatoire, nous décrivons précisément les performances de reconstruction d'un signal tensoriel bruité au moyen d'une MLSVD tronquée (qui généralise aux tenseurs le concept de SVD tronquée). Contrairement au cas matriciel, cette estimation n'est que quasi-optimale et nous étudions donc ensuite le calcul de la meilleure approximation tensorielle de petit rang multilinéaire au moyen de l'algorithme HOOI. Par une approche similaire, nous examinons le problème du clustering multi-vues sous l'angle d'une approximation tensorielle de rang un. Nos résultats mettent en évidence et quantifient précisément l'importance de l'informativité des vues dans la qualité de l'estimation. De plus, cette étude permet de mettre en lumière un phénomène central de l'approximation tensorielle : le fossé statistico-computationel, c'est-à-dire l'incapacité fondamentale d'atteindre algorithmiquement les performances théoriquement atteignables par estimation statistique.
Date et lieu
Mardi 11 Mars à 13:30
GIPSA-lab, Salle JM Chassery
et Zoom
Composition du jury
Thèse dirigé par COUILLET Romain et co-encadrée par CHATELAIN Florent
Thèse préparée au sein du LIG et GIPSA-lab
Philippe LOUBATON
Professeur des universités, Université Gustave Eiffel (Rapporteur)
Rémi BARDENET
Directeur de recherche CNRS, Université de Lille (Rapporteur)
Walid HACHEM
Directeur de recherche CNRS, Université Gustave Eiffel (Examinateur)
Mylène MAÏDA
Professeure des universités, Université de Lille (Examinatrice)
Pierre COMON
Directeur de recherche CNRS émérite, Université Grenoble Alpes (Examinateur)
Olivier MICHEL
Professeur des universités, Université Grenoble Alpes (Président)
- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn