Mardi 11 mars 2025
- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn
Traduction automatique de la parole vers des pictogrammes
Résumé :
La Communication Alternative et Augmentée (CAA) propose des méthodes et des outils pour pallier les déficiences de la production et de la compréhension de la parole. Les pictogrammes, éléments clés de la CAA, facilitent la communication des pensées et des émotions à travers une iconographie simplifiée. Cependant, des mythes et des barrières économiques freinent son déploiement, soulignant le besoin de solutions adaptées. La traduction automatique de la parole vers des pictogrammes, une nouvelle tâche du Traitement Automatique des Langues (TAL), vise à générer des séquences de pictogrammes à partir d'énoncés oraux. À l'intersection des domaines de la CAA et de la Traduction Automatique de la Parole (TAP), cette tâche peut faciliter la communication entre les aidants (personnels médicaux, proches) et des personnes souffrant de troubles du langage. Elle se heurte néanmoins à des défis majeurs, dont le manque de données multimodales unifiées, l'absence d'un cadre d'évaluation précis et l'inexistence de modèles neuronaux spécialisés pour proposer une traduction en pictogrammes.
Dans cette thèse, nous présentons trois contributions pour relever ces défis. Nous introduisons deux méthodes de création de corpus multimodaux alignant de la parole, du texte et des pictogrammes. La première inclut une grammaire et un vocabulaire restreints pour générer une séquence de pictogrammes à partir de la transcription, tandis que la seconde intègre une chaîne de traitement pour récupérer l'audio des textes traduits en pictogrammes. Ces deux méthodes créent des ensembles de données robustes pour l’entraînement et l'évaluation des modèles.
Dans notre deuxième contribution, nous définissons un cadre d'évaluation spécifique, combinant une évaluation automatique et humaine. Nous adaptons des métriques communément appliquées aux domaines de la Reconnaissance Automatique de la Parole (RAP) et de la Traduction Automatique (TA) pour comparer les performances entre modèles. Nous appliquons un cadre analytique pour interpréter la qualité des traductions.
Enfin, dans notre troisième contribution, nous étudions deux approches, en cascade et de bout-en-bout, pour générer des séquences de pictogrammes à partir de la parole. Nous comparons des modèles de RAP, de TA et de TAP état de l'art, entraînés ou affinés sur les données multimodales créées. Les résultats de notre évaluation démontrent la capacité des modèles en cascade à produire des traductions en pictogrammes compréhensibles sur de la parole lue dans des contextes quotidiens. Nous démontrons des résultats compétitifs avec un modèle de bout-en-bout pour la parole spontanée, un défi persistant en TAL. Le code, les données et les modèles développés sont disponibles librement.
Dans cette thèse, nous présentons trois contributions pour relever ces défis. Nous introduisons deux méthodes de création de corpus multimodaux alignant de la parole, du texte et des pictogrammes. La première inclut une grammaire et un vocabulaire restreints pour générer une séquence de pictogrammes à partir de la transcription, tandis que la seconde intègre une chaîne de traitement pour récupérer l'audio des textes traduits en pictogrammes. Ces deux méthodes créent des ensembles de données robustes pour l’entraînement et l'évaluation des modèles.
Dans notre deuxième contribution, nous définissons un cadre d'évaluation spécifique, combinant une évaluation automatique et humaine. Nous adaptons des métriques communément appliquées aux domaines de la Reconnaissance Automatique de la Parole (RAP) et de la Traduction Automatique (TA) pour comparer les performances entre modèles. Nous appliquons un cadre analytique pour interpréter la qualité des traductions.
Enfin, dans notre troisième contribution, nous étudions deux approches, en cascade et de bout-en-bout, pour générer des séquences de pictogrammes à partir de la parole. Nous comparons des modèles de RAP, de TA et de TAP état de l'art, entraînés ou affinés sur les données multimodales créées. Les résultats de notre évaluation démontrent la capacité des modèles en cascade à produire des traductions en pictogrammes compréhensibles sur de la parole lue dans des contextes quotidiens. Nous démontrons des résultats compétitifs avec un modèle de bout-en-bout pour la parole spontanée, un défi persistant en TAL. Le code, les données et les modèles développés sont disponibles librement.
Date et lieu
Composition du jury
Benjamin LECOUTEUX
Professeur des Universités, Université Grenoble Alpes, Directeur de thèse
Iris ESHKOL-TARAVELLA
Professeure des Universités, Université Paris 10 - Nanterre, Rapporteure
Frédéric BÉCHET
Professeur des Universités, Aix-Marseille Université, Rapporteur
Didier SCHWAB
Professeur des Universités, Université Grenoble Alpes, Co-directeur de thèse
Nathalie CAMELIN
Maîtresse de Conférences, Avignon Université, Examinateur
François PORTET
Professeur des Universités, Université Grenoble Alpes, Examinateur
- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn