Houssein Ahmed Assowe - Construction et évaluation pour la TA d'un corpus journalistique bilingue : application au français-somali

14:00
Mercredi
29
Mai
2019
Organisé par : 
Houssein Ahmed Assowe
Intervenant : 
Houssein Ahmed Assowe
Équipes : 
Information détaillée : 

 

Jury :

  • Hervé Blanchon, maitre de conferences, Université Grenoble Alpes, directeur de thèse
  • Mathieu Lafourcade, maitre de conferences, Université de Montpellier, rapporteur
  • Max Silberztein, professeur, Université de Franche-Comté, rapporteur
  • Christophe Roche, professeur, Université Savoie Mont Blanc, examinateur
  • Christian Boitet, professeur émérite, Universite Grenoble Alpes, invité
Résumé : 

 

Dans le cadre des travaux en cours pour informatiser un grand nombre de langues « peu dotées », en particulier celles de l’espace francophone, nous avons créé un système de traduction automatique français-somali dédié à un sous-langage journalistique, permettant d’obtenir des traductions de qualité, à partir d’un corpus bilingue construit par post-édition des résultats de Google Translate (GT), à destination des populations somalophones et non francophones de la Corne de l’Afrique. Pour cela, nous avons constitué le tout premier corpus parallèle français-somali de qualité, comprenant à ce jour 98 912 mots (environ 400 pages standard) et 10 669 segments. Ce dernier est constitué d’un corpus aligné, et de très bonne qualité, car nous l’avons construit en post-éditant les pré-traductions de GT, qui combine pour cela avec une combinaison de deux systèmes de TA français-anglais et système de TA anglais-somali. Il Ce corpus a également fait l’objet d’une évaluation de la part de 9 annotateurs bilingues qui ont donné une note score de qualité à chaque segment du corpus, et corrigé éventuellement notre post-édition. À partir de ce corpus, en croissance, nous avons construit plusieurs versions successives d’un système de Traduction Automatique à base de fragments (PBMT), MosesLIG-fr-so, qui s’est révélé meilleur que GoogleTranslate(GT) sur ce couple de langues et ce sous-langage, en termes de mesure BLEU et du temps de post-édition. Nous avons fait également une première expérience de traduction automatique neuronale français-somali en utilisant OpenNMT, de façon à améliorer les résultats de la TA sans aboutir à des temps de calcul prohibitifs, tant durant l’entraînement que durant le décodage. 
D’autre part, nous avons mis en place une iMAG (passerelle interactive d’accès multilingue) qui permet à des internautes somaliens non francophones du continent d’accéder en somali à l’édition en ligne du journal « La Nation de Djibouti ». Les segments (phrases ou titres) pré-traduits automatiquement par notre un système de TA fr-so en ligne disponible peuvent être post-édités et notés (sur une échelle de 1 à 20) par les lecteurs eux-mêmes, de façon à améliorer le système par apprentissage incrémental, de la même façon que ce qui a été fait pour le système français-chinois (PBMT) créé par [Wang, 2015].