Zied Elloumi - Prédiction de performances des systèmes de Reconnaissance Automatique de la Parole

14:00
Lundi
18
Mar
2019
Intervenant : 
Zied Elloumi
Équipes : 
Information détaillée : 

 

Jury 

  • Laurent Besacier, professeur, Université Grenoble Alpes (Directeur
  • Jean-Francois Bonastre, professeur, Université d'Avignon (Rapporteur
  • Denis Jouvet, professeur, Université de Lorraine (Rapporteur
  • Julien Pinquier, maître de conférences HDR, IRIT (Examinateur
  • Olivier Galibert, ingénieur de recherche, LNE (Co-encadrant
  • Benjamin Lecouteux, maître de conférences, Université Grenoble Alpes (Co-encadrant

 

Résumé : 

Nous abordons dans cette thèse la tâche de prédiction de performances des systèmes de reconnaissance automatique de la parole (SRAP). Il s’agit d’une tâche utile pour mesurer la fiabilité d’hypothèses de transcription issues d’une nouvelle collection de données, lorsque la transcription de référence est indisponible et que le SRAP utilisé est inconnu (boîte noire). Notre contribution porte sur plusieurs axes : d’abord, nous proposons un corpus français hétérogène pour apprendre et évaluer des systèmes de prédiction de performances ainsi que des systèmes de RAP. Nous comparons par la suite deux approches de prédiction : une approche à l’état de l’art basée sur l’extraction explicite de traits et une nouvelle approche basée sur des caractéristiques entraînées implicitement à l’aide des réseaux neuronaux convolutifs (CNN). L’utilisation jointe de traits textuels et acoustiques n’apporte pas de gains avec de l’approche état de l’art, tandis qu’elle permet d’obtenir de meilleures prédictions en utilisant les CNNs. Nous montrons également que les CNNs prédisent clairement la distribution des taux d’erreurs sur une collection d’enregistrements, contrairement à l’approche état de l’art qui génère une distribution éloignée de la réalité. Ensuite, nous analysons des facteurs impactant les deux approches de prédiction. Nous évaluons également l’ impact de la quantité d’ apprentissage des systèmes de prédiction ainsi que la robustesse des systèmes appris avec les sorties d’un système de RAP particulier et utilisés pour prédire la performance sur une nouvelle collection de données. Nos résultats expérimentaux montrent que les deux approches de prédiction sont robustes et que la tâche de prédiction est plus difficile sur des tours de parole courts ainsi que sur les tours de parole ayant un style de parole spontané. Enfin, nous essayons de comprendre quelles informations sont capturées par notre modèle neuronal et leurs lien s avec différents facteurs. Nos expériences montrent que les représentations intermédiaires dans le réseau encodent implicitement des informations sur le style de la parole, l’accent du locuteur ainsi que le type d’émission. Pour tirer profit de cette analyse, nous proposons un système multi-tâche qui se montre légèrement plus efficace sur la tâche de prédiction de performance.