Mardi 08 avril 2025
- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn
Apprentissage par transfert pour l'analyse sémantique translingue
Résumé :
Abstract Meaning Representation (AMR) capture l'information sémantique des textes et la représente sous la forme d'un graphe. Les graphes AMR sont utiles à de nombreux systèmes de Traitement Automatique des Langues (TAL) en présentant l'information sous une forme structurée, canonique et moins ambiguë. Par conséquent, la conception et le développement d'analyseurs AMR pour générer automatiquement des graphes AMR est une tâche importante. La construction de tels modèles pour le français est cependant confrontée à un défi majeur en raison du manque de données, à la fois pour l'évaluation et l'entraînement. Cette recherche a abordé ces défis à travers trois contributions clés visant à faire progresser l'analyse sémantique AMR en français.
Premièrement, nous développons des données d'évaluation AMR multilingues. Ces ensembles de données comportent deux niveaux de qualité (or et argent) en fonction du degré d'intervention manuelle. Les données gold sont obtenues par alignement manuel des données. Nous utilisons les données AMR de l'anglais The Little Prince et les alignons manuellement sur les traductions multilingues. Cet alignement manuel minutieux garantit la qualité et la fiabilité des données. En revanche, les données silver sont obtenues par traduction automatique sans contrôle manuel de la qualité. Par conséquent, nous évaluons ces données de manière intrinsèque et extrinsèque afin de déterminer leur fiabilité.
Deuxièmement, nous explorons les approches d'apprentissage zero/few-shot pour entraîner un analyseur AMR pour nos langues cibles sans accès aux données d'entraînement correspondantes. Nous expérimentons deux méthodes différentes : Speaking the Graph Language via Multilingual Translation (Procopio et al., 2021, SGL) et le méta-apprentissage. En reproduisant SGL, nous comparons les configurations bilingues et multilingues afin de déterminer quelle configuration fournit les meilleurs résultats dans les scénarios d'apprentissage zero-shot. En outre, nous appliquons le méta-apprentissage pour entraîner un modèle capable de s'adapter rapidement à une nouvelle langue cible avec quelques exemples. Afin d'évaluer l'efficacité du méta-apprentissage pour l'analyse AMR translingue, nous comparons ses performances à celles d'une approche d'apprentissage conjoint, ce qui donne un aperçu de son applicabilité à l'analyse AMR translingue.
Enfin, nous proposons une autre façon de linéariser les graphes AMR pour l'apprentissage de modèles séquence à séquence. Récemment, l'utilisation d'un modèle séquence-séquence pour l'analyse syntaxique AMR a suscité beaucoup d'intérêt en raison de sa simplicité et de son efficacité. La linéarisation des graphes AMR est une condition préalable à ces méthodes. L'encodage de Penman a été un choix courant pour la linéarisation de l'AMR mais nous émettons l'hypothèse que l'encodage de Penman a des limites pour capturer les structures de graphe profondes de l'AMR. Nous proposons une autre façon de les linéariser avec des triplets et nous évaluons notre méthode sur différentes dimensions, en nous concentrant particulièrement sur la profondeur et la longueur des graphes.
Premièrement, nous développons des données d'évaluation AMR multilingues. Ces ensembles de données comportent deux niveaux de qualité (or et argent) en fonction du degré d'intervention manuelle. Les données gold sont obtenues par alignement manuel des données. Nous utilisons les données AMR de l'anglais The Little Prince et les alignons manuellement sur les traductions multilingues. Cet alignement manuel minutieux garantit la qualité et la fiabilité des données. En revanche, les données silver sont obtenues par traduction automatique sans contrôle manuel de la qualité. Par conséquent, nous évaluons ces données de manière intrinsèque et extrinsèque afin de déterminer leur fiabilité.
Deuxièmement, nous explorons les approches d'apprentissage zero/few-shot pour entraîner un analyseur AMR pour nos langues cibles sans accès aux données d'entraînement correspondantes. Nous expérimentons deux méthodes différentes : Speaking the Graph Language via Multilingual Translation (Procopio et al., 2021, SGL) et le méta-apprentissage. En reproduisant SGL, nous comparons les configurations bilingues et multilingues afin de déterminer quelle configuration fournit les meilleurs résultats dans les scénarios d'apprentissage zero-shot. En outre, nous appliquons le méta-apprentissage pour entraîner un modèle capable de s'adapter rapidement à une nouvelle langue cible avec quelques exemples. Afin d'évaluer l'efficacité du méta-apprentissage pour l'analyse AMR translingue, nous comparons ses performances à celles d'une approche d'apprentissage conjoint, ce qui donne un aperçu de son applicabilité à l'analyse AMR translingue.
Enfin, nous proposons une autre façon de linéariser les graphes AMR pour l'apprentissage de modèles séquence à séquence. Récemment, l'utilisation d'un modèle séquence-séquence pour l'analyse syntaxique AMR a suscité beaucoup d'intérêt en raison de sa simplicité et de son efficacité. La linéarisation des graphes AMR est une condition préalable à ces méthodes. L'encodage de Penman a été un choix courant pour la linéarisation de l'AMR mais nous émettons l'hypothèse que l'encodage de Penman a des limites pour capturer les structures de graphe profondes de l'AMR. Nous proposons une autre façon de les linéariser avec des triplets et nous évaluons notre méthode sur différentes dimensions, en nous concentrant particulièrement sur la profondeur et la longueur des graphes.
Mots clés : Analyse sémantique, Abstract Meaning Representation (AMR), Apprentissage zéro-shot, Apprentissage par transfert translingue
Date et lieu
Composition du jury
Didier Schwab
Professeur des universités, Université Grenoble Alpes, Directeur de thèse
Marie Candito
Maitresse de conférences, Université Paris Cité, Rapporteure
Patrice Bellot
Professeur des universités, Aix-Marseille Université, Rapporteur
Eric Gaussier
Professeur des universités, Université Grenoble-Alpes, Examinateur
Chloe Braud
Chargée de recherche, IRIT-CNRS, Examinatrice
Maximin Coavoux
Chargé de recherche, LIG-CNRS, Co-encadrant de thèse (Invité)
Cédric Lopez
Directeur de recherche, Emvista, Co-encadrant de thèse (Invité)
- Imprimer
- Partager
- Partager sur Facebook
- Share on X
- Partager sur LinkedIn