Mateusz Budnik - Apprentissage actif et profond pour le multimédia

14:30
Vendredi
24
Fév
2017
Organisé par : 
Mateusz Budnik
Intervenant : 
Mateusz Budnik
Équipes : 
Information détaillée : 

 

Composition du jury :

  • Guillaume Gravier - Directeur de Recherche - IRISA - Rapporteur
  • Philippe Joly - Professeur - IRIT - Rapporteur
  • Catherine Berrut - Professeur - LIG - Examinatrice
  • Hervé Bredin - Chargé de Recherche - LIMSI - Examinateur
  • Laurent Besacier - Professeur  - LIG - Directeur de these
  • Georges Quénot - Directeur de Recherche - LIG - Directeur de these
Résumé : 

Les thèmes principaux abordés dans cette thèse sont l’utilisation de méthodes d’apprentissage actif et d’apprentissage profond dans le contexte du traitement de documents multimodaux. Les contributions proposées dans cette thèse abordent ces deux thèmes. Un système d’apprentissage actif a été introduit pour permettre une annotation plus efficace des émissions de télévision grâce à la propagation des étiquettes, à l’utilisation de données multimodales et à des stratégies de sélection efficaces. Plusieurs scénarios et expériences ont été envisagés dans le cadre de l’identification des personnes dans les vidéos, en prenant en compte l’utilisation de différentes modalités (telles que les visages, les segments de la parole et le texte superposé) et différentes stratégies de sélection. Le système complet a été validé au cours d’un “test à blanc” impliquant des annotateurs humains réels.

Une deuxième contribution majeure a été l’étude et l’utilisation de l’apprentissage profond (en particulier les réseaux de neurones convolutifs) pour la recherche d’information dans les vidéos. Une étude exhaustive a été réalisée en utilisant différentes architectures de réseaux neuronaux et différentes techniques d’apprentissage telles que le réglage fin (fine-tuning) ou des classificateurs plus classiques comme les SVMs. Une comparaison a été faite entre les caractéristiques apprises (la sortie des réseaux neuronaux) et les caractéristiques plus classiques (“engineered features”). Malgré la performance inférieure des seconds, une fusion de ces deux types de caractéristiques augmente la performance globale.

Enfin, l’utilisation d’un réseau neuronal convolutif pour l’identification des locuteurs à l’aide de spectrogrammes a été explorée. Les résultats ont été comparés à ceux obtenus avec d’autres systèmes d’identification de locuteurs récents. Différentes approches de fusion ont également été testées. L’approche proposée a permis d’obtenir des résultats comparables à ceux certains des autres systèmes testés et a offert une augmentation de la performance lorsqu’elle est fusionnée avec la sortie du meilleur système.