Hang Le | LIG - Université Grenoble Alpes

Lundi 25 Mars 2024

Architectures et techniques d'entraînement pour la traduction parole-texte multilingue

Résumé :

La traduction automatique de la parole vers le texte (ST) consiste à traduire une parole en une langue en un texte dans une autre langue. Il s’agit d’une tâche extrêmement complexe en raison de sa nature multimodale (impliquant de la parole et du texte) et multilingue. Dans cette thèse, nous apportons trois contributions majeures couvrant deux domaines de recherche principaux de ST, à savoir les architectures de modèles et les techniques d'entraînement.

Tout d'abord, en termes d'architectures de modèles, nous introduisons le Transformer à double décodeur, une nouvelle architecture de modèle qui effectue conjointement la reconnaissance automatique de la parole (ASR) et la ST multilingue. Nos modèles sont basés sur le Transformer original, mais ils consistent en deux décodeurs, chacun étant responsable d’une tâche (ASR ou ST). Notre contribution majeure réside dans la manière dont ces décodeurs interagissent entre eux : un décodeur peut se concentrer sur différentes sources d’informations par rapport à l’autre via un mécanisme d’attention double. Nous proposons deux variantes, Transformers à double décodeur parallèles et Transformers à double décodeur croisés. Chacun correspond à deux niveaux de dépendance entre les décodeurs. Les expériences sur l’ensemble de données MuST-C montrent que nos modèles surpassent les performances de traduction les plus élevées précédemment rapportées, tant dans les paramètres bilingues que multilingues.

Les techniques d’entraînement peuvent être divisées en trois paradigmes majeurs : le préentraînement, l'ajustement fin et l’apprentissage multitâches. Nos deux contributions suivantes s’inscrivent dans le cadre du préentraînement et de l'ajustement fin, tandis que notre première contribution sur l’architecture du modèle peut également être considérée comme une nouvelle méthode d’apprentissage multitâches pour la ST. Dans notre deuxième contribution, nous proposons une nouvelle méthode de préentraînement supervisé pour traiter ce que l’on appelle l’écart des modalités entre la parole et le texte à l’étape de préentraînement, sans nécessiter de modification du modèle ST. Notre méthode préentraîne un réseau siamois qui utilise la fonction de perte de classification temporelle connectionniste (CTC) et le transport optimal (OT) pour aligner les caractéristiques de la parole et du texte. Des expériences approfondies sur les ensembles de données standard CoVoST-2 et MuST-C montrent que notre méthode de préentraînement appliquée au Transformer encodeur-décodeur vanilla atteint des performances à l’état de l'art lorsqu’il y a absence de données externes, et est comparable aux systèmes récents d’apprentissage multitâches performants entraînés avec des données externes.

Enfin, en termes de techniques d’ajustement fin, nous avons proposé une méthode efficace en termes de paramètres pour la ST en utilisant des modules adaptateurs. Alors que l'ajustement des adaptateurs est étudié pour la traduction automatique neuronale multilingue, nous proposons une analyse complète des adaptateurs pour la TS multilingue. En partant de différents modèles pré-entraînés (un ST multilingue entraîné sur des données parallèles ou un mBART multilingue entraîné sur des données multilingues non parallèles), nous montrons que les adaptateurs peuvent être utilisés pour : (a) spécialiser efficacement la ST pour des paires de langues spécifiques avec un faible coût supplémentaire en termes de paramètres, et (b) transférer à partir d’une tâche de reconnaissance automatique de la parole (ASR) et d’un modèle préentraîné mBART vers une tâche de ST multilingue. Les expériences montrent que le réglage avec adaptateurs offre des résultats compétitifs par rapport à l’ajustement fin complet, tout en étant beaucoup plus efficace en termes de paramètres.

Date et lieu

Lundi 25 Mars 2024, 14:00
Bâtiment IMAG
et Zoom

Jury members

Didier Schwab

Université Grenoble Alpes, Advisor

Benjamin Lecouteux

Université Grenoble Alpes, Co-advisor

Fédéric Béchet

Aix-Marseille Université, CNRS, LIS, Reviewer

François Yvon

Sorbonne Université, CNRS, ISIR, Reviewer

Juan Pino

Meta AI, Examiner

Laurent Besacier

NAVER LABS Europe, Examiner

Caroline Rossi

Université Grenoble Alpes, Examiner