Abdelkader El Mahdaouy - Accès à l'information dans les grandes collections textuelles en langue arabe

10:00
Samedi
16
Déc
2017
Organisé par : 
Abdelkader El Mahdaouy
Intervenant : 
Abdelkader El Mahdaouy
Équipes : 
Information détaillée : 

 

Lieu de soutenance :

Salle de conférences de la Faculté des Sciences Dhar El Mahraz -Fès, Maroc

Jury :

  • M. Mohand Boughanem, professeur, Université Toulouse 3 - CNRS-IRIT, rapporteur
  • M. Pierre Zweigenbaum, directeur de recherche, Université Paris-Saclay LIMSI-CNRS, rapporteur
  • M. Mohammed Ouçamah Cherkaoui Malki, professeur, Faculté des Sciences Dhar El Mahraz -Fès, examinateur
  • M. Brahim Ouhbi, professeur, Ecole Nationale Supérieure d'Art et Métiers- Meknès, examinateur
  • M. Eric Gaussier, professeur, Université Grenoble Alpes -Grenoble, directeur de thèse
  • M. Saïd Ouatik El Alaoui, professeur, Faculté des Sciences Dhar El Mahraz -Fès, directeur de thèse

 

Résumé : 

Face à la quantité d'information textuelle disponible sur le web en langue arabe, le développement des Systèmes de Recherche d'Information (SRI) efficaces est devenu incontournable pour retrouver l'information pertinente. La plupart des SRIs actuels de la langue arabe reposent sur la représentation par sac de mots et l'indexation des documents et des requêtes est effectuée souvent par des mots bruts ou des racines. Ce qui conduit à plusieurs problèmes tels que l'ambigüité et la disparité des termes, etc. 
Dans ce travail de thèse, nous nous sommes intéressés à apporter des solutions aux problèmes d'ambiguïté et de disparité des termes pour l'amélioration de la représentation des documents et le processus de l'appariement des documents et des requêtes. Nous apportons quatre contributions au niveau de processus de représentation, d'indexation et de recherche d'information en langue arabe. La première contribution consiste à représenter les documents à la fois par des termes simples et des termes complexes. Cela est justifié par le fait que les termes simples seuls et isolés de leur contexte sont ambigus et moins précis pour représenter le contenu des documents. Ainsi, nous avons proposé une méthode hybride pour l’extraction de termes complexes en langue arabe, en combinant des propriétés linguistiques et des modèles statistiques. Le filtre linguistique repose à la fois sur l'étiquetage morphosyntaxique et la prise en compte des variations pour sélectionner les termes candidats. Pour sectionner les termes candidats pertinents, nous avons introduit une mesure d'association permettant de combiner l'information contextuel avec les degrés de spécificité et d'unité. La deuxième contribution consiste à explorer et évaluer les systèmes de recherche d’informations permettant de tenir compte de l’ensemble des éléments d’indexation (termes simples et complexes). Par conséquent, nous étudions plusieurs extensions des modèles existants de RI pour l'intégration des termes complexes. En outre, nous explorons une panoplie de modèles de proximité. Pour la prise en compte des dépendances de termes dans les modèles de RI, nous introduisons une condition caractérisant de tels modèle et leur validation théorique. La troisième contribution permet de pallier le problème de disparité des termes en proposant une méthode pour intégrer la similarité entre les termes dans les modèles de RI en s'appuyant sur les représentations distribuées des mots (RDMs). L'idée sous-jacente consiste à permettre aux termes similaire à ceux de la requête de contribuer au scores des documents. Les extensions des modèles de RI proposées dans le cadre de cette méthode sont validées en utilisant les contraintes heuristiques d'appariement sémantique. La dernière contribution concerne l'amélioration des modèles de rétro-pertinence (Pseudo Relevance Feedback PRF). Etant basée également sur les RDM, notre méthode permet d'intégrer la similarité entre les termes d'expansions et ceux de la requête dans les modèles standards PRF.  
La validation expérimentale de l'ensemble des contributions apportées dans la cadre de cette thèse est effectuée en utilisant la collection standard TREC 2002/2001 de la langue arabe.