Aller au contenu principal

Lucas Albarede

Recherche de passage dans des documents de Standardisations

Mercredi 29 mars 2023

Résumé :

Ce travail de thèse se concentre sur la recherche de passages textuels, qui consiste à retrouver de courts extraits de documents. Les concepteurs d’un réseau électrique doivent souvent lire de longs documents de standardisation, et nous souhaitons leur fournir un système avec lequel ils peuvent répondre efficacement à leur besoin d’information. Nous proposons d’étudier des modèles d’estimation de la pertinence qui exploitent les caractéristiques des standards afin d’en améliorer les performances. Plus précisément, nous considérons leur structure physique, leurs références inter- et intra-documents et leur vocabulaire technique. Notre première contribution porte sur le problème de la contextualisation des passages, qui consiste à prendre en compte le contexte d’un passage pour en estimer la pertinence. Nous considérons le contexte d’un passage par rapport à la structure du document qui le contient, et nous proposons deux approches pour exploiter ce contexte. Nous utilisons des modèles traditionnels d’estimation de la pertinence qui permettent une recherche efficace et efficiente, et atteignent des performances significativement plus élevées que celles de la littérature.
Notre deuxième contribution se concentre sur l’apport des réseaux neuronaux au problème de la contextualisation. Nous considérons la structure d’un document en tant que graphe et étudions l’utilisation de graph neural networks, qui sont des réseaux neuronaux spécialisés dans les données graphiques dont le but est de calculer des représentations sémantiques de passages. Nous exploitons ces représentations dans un modèle d’estimation de la pertinence basé sur les réseaux neuronaux. Bien que cette approche soit moins efficace, elle atteint des performances significativement meilleures par rapport à la littérature, ainsi que par rapport à notre solution basée sur des méthodes traditionnelles.
Notre troisième contribution se concentre sur la prise en compte simultanée des entités et du contexte des passages en utilisant des méthodes de réseaux neuronaux. Nous considérons des représentations de documents sous forme de graphes auxquelles nous ajoutons des entités, et calculons des représentations de passages sémantiques en utilisant des graph neural networks. De manière similaire à notre deuxième contribution, nous intégrons ces représentations dans un modèle d’estimation de pertinence neuronal. Nous montrons que la prise en compte des entités ainsi que de la structure d’un document améliorent significativement les résultats par rapport à uniquement la prise en compte de la structure.

Date et Lieu

Mercredi 29 mars 2023 à 14h15
Auditorium de l'IMAG.

Encadrants

Lorraine GOERIOT
UGA
Sylvain MARIE
Schneider Electric
Philippe MULHEM
CNRS

Composition du Jury

Sylvie CALABRETTO
INSA Lyon
Patrice BELLOT
Université d'Aix-Marseille
Florina PIROI
TU Wien
Marie-Chirstine ROUSSET
UGA

Publié le 28 mars 2023

Mis à jour le 28 mars 2023