Marwa Hadj Salah - Désambiguïsation lexicale de l'arabe pour et par la traduction automatique

09:00
Mardi
18
Déc
2018
Intervenant : 
Marwa Hadj Salah
Équipes : 
Mots clés : 
Information détaillée : 

 

Lieu de soutenance :

Institut d'administration des entreprises de Grenoble (IAE)
525 Avenue Centrale, 38400 Saint-Martin-d'Hères

 

Jury :

  • Herve  Blanchon, maitre de conferences, Universite Grenoble Alpes, directeur de thèse
  • Mounir Zrigui, professeur, Université de Monastir - Tunisie, directeur de thèse
  • Didier  Schwab, maitre de conferences, Universite Grenoble Alpes, examinateur
  • Patrick  Paroubek, ingenieur de recherche, CNRS Ile-De France Gif-Sur-Yvette, rapporteur
  • Mohamed Jemni, professeur, Université de Tunis - Tunisie, rapporteur
  • Kamel  Smaili, professeur, Université de LorrainE, examinateur
Résumé : 

Nous abordons dans cette thèse une étude sur la tâche de la désambiguïsation lexicale qui est une tâche centrale pour le traitement automatique des langues, et qui peut améliorer plusieurs applications telles que la traduction automatique ou l'extraction d'informations. Les recherches en désambiguïsation lexicale concernent principalement l'anglais, car la majorité des autres langues manque d'une référence lexicale standard pour l'annotation des corpus, et manque aussi de corpus annotés en sens pour l'évaluation, et plus important pour la construction des systèmes de désambiguïsation lexicale. En anglais, la base de données lexicale wordnet est une norme de-facto de longue date utilisée dans la plupart des corpus annotés et dans la plupart des campagnes d'évaluation. 
Notre contribution porte sur plusieurs axes: dans un premier temps, nous présentons une méthode pour la création automatique de corpus annotés en sens pour n'importe quelle langue, en tirant parti de la grande quantité de corpus anglais annotés en sens wordnet, et en utilisant un système de traduction automatique. Cette méthode est appliquée sur la langue arabe et est évaluée sur le seul corpus arabe, qui à notre connaissance, soit annoté manuellement en sens wordnet: l'OntoNotes 5.0 arabe que nous avons enrichi semi-automatiquement. Son évaluation est réalisée grâce à la mise en œuvre de deux systèmes supervisés (SVM, LSTM) qui sont entraînés sur les corpus produits avec notre méthode. 
Grâce ce travail, nous proposons ainsi une base de référence solide pour l'évaluation des futurs systèmes de désambiguïsation lexicale de l’arabe, en plus des corpus arabes annotés en sens que nous fournissons en tant que ressource librement disponible. 
Dans un second temps, nous proposons une évaluation in vivo de notre système de désambiguïsation de l’arabe en mesurant sa contribution à la performance de la tâche de traduction automatique.