Solène Evain | LIG - Université Grenoble Alpes

Mardi 8 octobre 2024

Dimensions de variation de la parole spontanée pour l’étude inter-corpus des performances de systèmes de reconnaissance automatique de la parole

Ces dernières années, la reconnaissance automatique de la parole a beaucoup progressé grâce au développement du deep learning et des modèles pré-appris. Toutefois, les performances sur la parole spontanée restent très variables, notamment en fonction des niveaux de spontanéité. Notre recherche vise tout d'abord à déterminer une méthode pour la capture d'ensembles représentatifs de différents niveaux de spontanéité, et pouvoir les situer les uns par rapports aux autres, en fonction des facteurs influençant leur spontanéité relative. Cette méthode ouvrirait la voie à des analyses de données inter-corpus. Nous étudions ensuite l'apport de la détermination de différents sous-types de parole spontanée sur les performances de systèmes de reconnaissance automatique de la parole.

La littérature montre que la spontanéité est influencée par de multiples facteurs tels que la relation entre les locuteurs, leur état émotionnel, la situation dans laquelle l'interaction a lieu, etc. Afin de déterminer ces facteurs parmi ceux pris en compte par les linguistes lors de la constitution de corpus oraux, nous avons collecté des données de parole spontanée représentatives de différentes situations, que nous avons analysées à travers le prisme des études en linguistique sur la parole spontanée. Nous avons ainsi pu identifier quatre dimensions majeures de variation de la parole spontanée: la "situation de communication", le "degré d'intimité entre les locuteurs", le "canal de communication" et le "type de communication". Ces dimensions auront permis la création de trois cas d'étude, regroupant des données supposées homogènes et représentatifs de situations plus ou moins propices à l'apparition de différents niveaux de spontanéité.

L'apport de ces différents cas d'étude pour l'étude des performances des systèmes est ensuite étudié au travers de différentes adaptations d'un modèle pré-appris sur le français. Tout d'abord, nous testons l'apport d'adaptations spécifiques du modèle à chacun de nos cas sur la reconnaissance automatique de données de ces mêmes cas. Ces différentes adaptations sont effectuées avec une petite quantité de données (~10h à chaque fois). Ensuite, nous étudions l'impact d'une adaptation au domaine spontané, avec une plus grande quantité de données moins contrôlées (~300h), sur les mêmes ensembles de test que précédemment.

Notre étude montre, tout d'abord, que l'étiquetage de données en fonction des dimensions proposées permet de montrer la large plage de performance que peut avoir un système de reconnaissance automatique de la parole sur de la parole spontanée. Si le WER moyen obtenu sur nos différents cas avec notre meilleur système est de 29%, le score sur le cas de parole très spontanée (nommé Usual_close) est de 51%, sur de la parole moyennement spontanée (Unusual_close) de 23% et sur de la parole peu spontanée (Unusual_distant) de 13%. La catégorisation de différents sous-types de parole spontanée dans les données d'évaluation présente donc une approche intéressante pour l'analyse fine des performances d'un système. Par les différents cas d'étude étudiés, nous montrons également que les systèmes semblent avoir plus de difficulté à traiter les situations très spontanées sur la dimension de la "situation de communication" (représentées par usual/unusual) que sur la dimension du "degré d'intimité entre les locuteurs" (représentées par close/distant). Enfin, nos différentes adaptations montrent un apport très significatif de l'adaptation d'un modèle pré-appris avec une large quantité de données variées, en comparaison à l'adaptation avec de petites quantités de données spécifiques à des sous-types de parole spontanée.

Date et lieu

Mardi 8 octobre à 9h
Maison des Langues et des Cultures (Salle Jacques Cartier)