Lies HADJADJ | LIG - Université Grenoble Alpes

Apprentissage Actif Semi-Supervisé avec la Modélisation Explicite de Mislabel : Application à la Conception de Matériaux

Lundi 6 Mars 2023

Résumé :

Les modèles prédictifs d'apprentissage automatique ont été appliqués à de nombreux domaines et applications jusqu'à présent. La majorité de ces algorithmes d'apprentissage reposent sur des données d'apprentissage étiquetées qui peuvent être coûteuses à obtenir car elles nécessitent l'étiquetage par un expert. De plus, avec les nouvelles capacités de stockage, une grande quantité de données non étiquetées existe en abondance. Dans ce contexte, le développement de nouveaux cadres pour apprendre des modèles efficaces à partir d'un petit ensemble de données étiquetées, ainsi qu'une grande quantité de données non étiquetées est un accent crucial de la communauté de recherche actuelle. Atteindre cet objectif élèverait considérablement l'état de l'art de l'intelligence artificielle pour être comparable ou surpasser la capacité humaine sur comment apprendre à généraliser des concepts à partir de très peu d'exemples étiquetés. L'apprentissage semi-supervisé et l'apprentissage actif sont deux sous-domaines de recherche actifs en cours qui visent à atteindre cet objectif.

Dans cette thèse, nous étudions deux directions de la théorie de l'apprentissage automatique pour l'apprentissage semi-supervisé et actif. Premièrement, nous nous intéressons aux propriétés de généralisation d'un algorithme d'auto-apprentissage utilisant des demi-espaces avec une modélisation explicite des erreurs d'étiquetage. Nous proposons un algorithme itératif pour apprendre une liste de demi-espaces à partir de données d'apprentissage étiquetées et non étiquetées, dans lequel chaque itération consiste en deux étapes, l'exploration et l'élagage. Nous dérivons une borne de généralisation pour l'algorithme proposé sous un modèle d'étiquetage de bruit de Massart. Deuxièmement, nous proposons une méta-approche pour les stratégies d'apprentissage actif basées sur des pools dans le contexte de tâches de classification multi-classes, qui s'appuie sur le concept proposé d'apprentissage sur les régions topologiques propres (RTP) avec une hypothèse sous-jacente de lissage sur l'espace métrique. Le TRP permet aux stratégies d'apprentissage actif basées sur le pool d'obtenir un meilleur ensemble d'entraînement initial que la sélection aléatoire et d'augmenter la taille de l'échantillon d'entraînement pendant les tours tout en fonctionnant dans un scénario de régime à petit budget. Des expérimentations menées sur différents benchmarks démontrent l'efficacité de nos approches proposées pour l'apprentissage semi-supervisé et actif par rapport aux méthodes de l'état de l'art.

Une troisième contribution de la thèse concerne le développement de solutions pratiques d'apprentissage profond dans le domaine difficile de la microscopie électronique à transmission (TEM) pour la conception de matériaux. Dans le contexte de la microscopie d'orientation, les approches basées sur ML doivent encore rattraper les techniques traditionnelles, telles que l'appariement de modèles ou la technique de Kikuchi, en ce qui concerne les performances de généralisation sur des orientations et des phases inconnu lors de l'apprentissage. Cela est dû principalement au peu de données expérimentales sur les phénomènes étudiés pour l'entraînement des modèles. Néanmoins, il s'agit d'une contrainte réaliste et pratique, en particulier pour les applications à domaine étroit où les données réelles ne sont pas largement disponibles. Certaines tentatives réussies ont été faites pour utiliser des techniques d'apprentissage non supervisées pour mieux comprendre les données, mais le regroupement des informations ne résout pas le problème de la microscopie d'orientation. À cette fin, nous proposons un cadre d'apprentissage multi-tâches avec de la recherche d'architecture neuronale pour l'automatisation rapide de la détermination de la phase et de l'orientation dans les images TEM.

Date et Lieu

Lundi 6 Mars à 9h00
Auditorium du bâtiment IMAG
en visio

Composition du Jury

Massih-Reza AMINI
Directeur de thèse

Marianne CLAUSEL
Professeur des universités, Rapporteure, Université de Lorraine

Fabien LAUER
Maître de conférence HDR, Rapporteur, Université de Lorraine
Noel JAKSE
Professeur des universités, Examinateur, Grenoble INP

Lionel GERMAIN
Professeur des universités, Examinateur, Université de Lorraine