Aller au contenu principal

Jibril Frej

Vendredi 5 Février 2021

Incorporation de Connaissances a priori pour la Recherche d’Information Textuelle Neuronale

Résumé :
 
Ce travail de thèse se situe dans les domaines de la recherche d'information (RI) textuelle et de l'apprentissage profond utilisant des réseaux de neurones. Les travaux effectués dans ce travail de thèse sont motivés par le fait que l'utilisation de réseaux de neurones en RI textuelle s'est révélée efficace sous certaines conditions mais que leur utilisation présente néanmoins plusieurs limitations pouvant grandement restreindre leur application en pratique.
 
Dans ce travail de thèse, nous proposons d'étudier l'incorporation de connaissances a priori pour aborder 3 limitations de l'utilisation de réseaux de neurones pour la RI textuelle : (1) la nécessité de disposer de grandes quantités de données étiquetées; (2) les représentations du texte sont basées uniquement sur des analyses statistiques; (3) le manque d'efficience. 
 
Nous nous sommes intéressés à trois types de connaissances a priori pour aborder les limitations mentionnées ci-dessus: (1) des connaissances issues d'une ressource semi-structurée : Wikipédia; (2) des connaissances issues de ressources structurées sous forme de ressources sémantiques telles que des ontologies ou des thésaurus; (3) des connaissances issues de texte non structurées.
 
Dans un premier temps, nous proposons WIKIR : un outil libre d'accès permettant de créer automatiquement des collections de RI depuis Wikipédia. Les réseaux de neurones entraînés sur les collections créées automatiquement ont besoin par la suite de moins de données étiquetées pour atteindre de bonnes performances. Dans un second temps, nous avons développé des réseaux de neurones pour la RI utilisant des ressources sémantiques. L'intégration de ressources sémantiques aux réseaux de neurones leur permet d'atteindre de meilleures performances pour la recherche d'information dans le domaine médical. Finalement, nous présentons des réseaux de neurones utilisant des connaissances issues de texte non structurées pour améliorer la performance et l'efficience des modèles de référence de RI n'utilisant pas d'apprentissage.

Date et Lieu

Organisé par

Jibril FREJ

Composition du Jury

Catherine BERRUT
Professeur, Université Grenoble Alpes, Examinateur
Mohand BOUGHANEM
Professeur, Université Paul Sabatier, Rapporteur
Jean-Pierre CHEVALLET
Maître de conférence, Université Grenoble Alpes, Directeur de thèse
Christine LARGERON
Professeur, Université Jean Monnet, Examinateur
Didier SCHWAB
Maître de conférence, Université Grenoble Alpes, Co-Directeur de thèse
Laure SOULIER
Maître de conférence, Sorbonne Université, Examinateur
Pierre ZWEIGENBAUM
Directeur de recherche, CNRS, Rapporteur

Publié le 28 janvier 2021

Mis à jour le 3 février 2021