Mardi 8 octobre 2024
- Share
- Share on Facebook
- Share on X
- Share on LinkedIn
Dimensions de variation de la parole spontanée pour l’étude inter-corpus des performances de systèmes de reconnaissance automatique de la parole
La littérature montre que la spontanéité est influencée par de multiples facteurs tels que la relation entre les locuteurs, leur état émotionnel, la situation dans laquelle l'interaction a lieu, etc. Afin de déterminer ces facteurs parmi ceux pris en compte par les linguistes lors de la constitution de corpus oraux, nous avons collecté des données de parole spontanée représentatives de différentes situations, que nous avons analysées à travers le prisme des études en linguistique sur la parole spontanée. Nous avons ainsi pu identifier quatre dimensions majeures de variation de la parole spontanée: la "situation de communication", le "degré d'intimité entre les locuteurs", le "canal de communication" et le "type de communication". Ces dimensions auront permis la création de trois cas d'étude, regroupant des données supposées homogènes et représentatifs de situations plus ou moins propices à l'apparition de différents niveaux de spontanéité.
L'apport de ces différents cas d'étude pour l'étude des performances des systèmes est ensuite étudié au travers de différentes adaptations d'un modèle pré-appris sur le français. Tout d'abord, nous testons l'apport d'adaptations spécifiques du modèle à chacun de nos cas sur la reconnaissance automatique de données de ces mêmes cas. Ces différentes adaptations sont effectuées avec une petite quantité de données (~10h à chaque fois). Ensuite, nous étudions l'impact d'une adaptation au domaine spontané, avec une plus grande quantité de données moins contrôlées (~300h), sur les mêmes ensembles de test que précédemment.
Notre étude montre, tout d'abord, que l'étiquetage de données en fonction des dimensions proposées permet de montrer la large plage de performance que peut avoir un système de reconnaissance automatique de la parole sur de la parole spontanée. Si le WER moyen obtenu sur nos différents cas avec notre meilleur système est de 29%, le score sur le cas de parole très spontanée (nommé Usual_close) est de 51%, sur de la parole moyennement spontanée (Unusual_close) de 23% et sur de la parole peu spontanée (Unusual_distant) de 13%. La catégorisation de différents sous-types de parole spontanée dans les données d'évaluation présente donc une approche intéressante pour l'analyse fine des performances d'un système. Par les différents cas d'étude étudiés, nous montrons également que les systèmes semblent avoir plus de difficulté à traiter les situations très spontanées sur la dimension de la "situation de communication" (représentées par usual/unusual) que sur la dimension du "degré d'intimité entre les locuteurs" (représentées par close/distant). Enfin, nos différentes adaptations montrent un apport très significatif de l'adaptation d'un modèle pré-appris avec une large quantité de données variées, en comparaison à l'adaptation avec de petites quantités de données spécifiques à des sous-types de parole spontanée.
Date et lieu
Mardi 8 octobre à 9h
Maison des Langues et des Cultures (Salle Jacques Cartier)
- Share
- Share on Facebook
- Share on X
- Share on LinkedIn