Jeudi 18 décembre 2025
- Imprimer
- Partager
- Partager sur Facebook
- Partager sur X
- Partager sur LinkedIn
Towards Simpler Transcripts: Investigating Automatic Simplification of French Spontaneous Speech
Résumé :
La compréhension humaine du monde nécessite la capacité d'abstraire et de simplifier des phénomènes complexes. Dans le contexte du langage naturel, la simplification est essentielle à la compréhension, en particulier lorsque les formes d'expression sont perçues comme complexes. La littérature associe souvent la complexité linguistique à des caractéristiques propres aux textes écrits formels. Cependant, elle peut également émerger de la parole spontanée, souvent marquée par une irrégularité structurelle et la présence des disfluences telles que les hésitations, répétitions ou faux départs.
Dans cette thèse, nous abordons l'automatisation de la simplification de la parole, avec un focus sur le français spontané en tant que langue source, une tâche encore largement inexplorée dans la recherche actuelle. Alors que la simplification automatique des textes a connu de grandes avancées dans le contexte de l'écrit en anglais, peu d'attention a été portée à la modalité orale. De plus, le manque de corpus parallèles dans des langues moins dotées que l'anglais constitue également un obstacle majeur à son automatisation dans la langue visée. L'objectif principal de ce travail est donc de combler ces lacunes en proposant un artefact capable de simplifier automatiquement la parole spontanée en français.
La thèse s'articule autour de trois objectifs principaux. Tout d'abord, nous proposons une caractérisation des stratégies de simplification propres au français spontané, car cette tâche n'a pas encore été formellement définie. À cette fin, nous collectons des simplifications issues d'experts et de LLMs à partir d'énoncés issus du CEFC, puis analysons les opérations linguistiques effectuées. Les résultats révèlent une prédominance des suppressions et une tendance à produire des phrases standardisées sur le plan du registre, ne conservant que le contenu propositionnel de la phrase source.
Ensuite, nous répondons au défi du manque de données parallèles spécifiques à la tâche à l'aide de deux méthodes de création de données. La première exploite des corpus comparables différenciés par le registre de langue (Wikipédia et Vikidia) pour extraire des paires complexes-simples, donnant lieu à WiViCo, contenant 46k paires non spontanées mais produites par des humains. La seconde repose sur la génération de données synthétiques via des LLMs, à travers un processus itératif d'exo-raffinement. Cette approche utilise des modèles distincts pour la génération et l'évaluation, permettant des mécanismes de feedback externes et une spécialisation des rôles. Appliqué aux phrases de CEFC, ce processus produit CEFC-Synth, qui, bien que synthétique, reflète plus fidèlement la modalité de la parole spontanée.
Enfin, à partir de ces ressources, nous introduisons un système de simplification de la parole spontanée en français, entraîné sur une combinaison de données humaines (WiViCo) et synthétiques (CEFC-Synth). Nous explorons des architectures en cascade et de bout en bout, que nous évaluons à l'aide de métriques automatiques, sur un jeu de test basé sur des références expertes issues du CEFC. Les résultats montrent que nos modèles surpassent largement un système état de l'art, à savoir MUSS. En outre, l'ajout de données synthétiques dans les données d'entraînement s'avère bénéfique, comme en témoignent les résultats obtenus dans les expériences de simplification des transcriptions.
Grâce à la contribution de nouvelles ressources d'évaluation et d'entraînement, de différentes méthodes de création de données spécifiques à la tâche, et d'un artefact opérationnel, cette thèse favorise la génération de transcriptions simplifiées à partir de la parole spontanée en français. Cela a des implications du point de vue de l'accessibilité (en améliorant la clarté du message pour différents publics), mais aussi sur le plan computationnel, car l'apport de représentations simplifiées intermédiaires peut améliorer les performances d'autres tâches dans le domaine du TAL.
Date et lieu
Jeudi 18 Décembre à 10:00
En salle 6050 (6ème étage) à Uni Mail (Université de Genève)
Et Zoom
Composition du Jury
Supervision :
Pierrette BOUILLON
Professeure ordinaire, Université de Genève
Benjamin LECOUTEUX
Professeur des universités, Université Grenoble Alpes
Didier SCHWAB
Professeur des universités, Université Grenoble Alpes
Composition du Jury :
Yannick ESTÈVE
Professeur des universités, Avignon Université
Núria GALA
Professeur des universités, Aix Marseille Université
Annarita FELICI
Professeure associée, Université de Genève
- Imprimer
- Partager
- Partager sur Facebook
- Partager sur X
- Partager sur LinkedIn