Gabriela GONZALEZ SAEZ | LIG - Université Grenoble Alpes

Cadre d'évaluation continue pour les systèmes de recherche d'information

Mardi 3 Octobre 2023

Résumé :

L'évaluation classique des systèmes de recherche d'informations (SRI) se fait à l'aide d'une collection de test statique composée d'un corpus de documents, d'un ensemble de requêtes et de jugements qui indiquent quels documents sont pertinents pour chaque requête. Dans le cas de la recherche d’information sur le Web, l'environnement (les pages Web, les requêtes soumises) change continuellement, et utiliser une collection de test statique ne tient pas compte de cette réalité changeante. De plus, de nouvelles fonctionnalités sont régulièrement ajoutées au moteur de recherche, créant de nouvelles versions du SRI. Ces modifications apportées au moteur de recherche, ainsi que l'évolution de la collection de tests utilisée pour évaluer le système, ont un impact sur l'évaluation des performances. À notre connaissance, la littérature ne propose aucun moyen d'évaluer différents SRI en utilisant des collections de tests évolutives comme support de l’évaluation continue de ces SRI. Une évaluation continue basée sur le paradigme d'évaluation classique devrait nous permettre de quantifier les différences entre les évaluations. Nous appelons les différences entre les collections de tests un "delta de connaissances" (KD), et les différences de performances entre les systèmes évalués sur ces différentes collections de tests sont appelées "delta de résultats" (RD). L'évaluation continue est basée à la fois sur les KD et les RD, qui nous permettent d'interpréter les performances du système. Nous proposons de créer des collections de test évolutives pour un cadre d'évaluation continue. Une collection de test évolutive est un ensemble de collections de test qui changent au fil des différentes époques. Elle peut être simulée à partir d'une collection de tests statique, ou acquise en utilisant une stratégie évolutive. Une telle collection de test évolutive est ensuite utilisée pour évaluer les systèmes dans le cadre de l'évaluation continue. Ce travail se concentre sur le calcul des RD. Dans cette optique, nous proposons un cadre défini en trois étapes. Tout d'abord, nous validons que deux époques sont comparables en utilisant un ensemble de systèmes de référence qui évaluent la comparabilité des paires de collections de tests. Ensuite, nous définissons la stratégie pour comparer les performances des différents systèmes à travers les époques. Nous proposons ici une comparaison des systèmes en utilisant : soit un système de référence appelé pivot pour créer un classement continu des systèmes, soit un ensemble de systèmes de référence pour calculer des fonctions de standardisation et de projection afin de définir des grains comparables à travers les époques. Dans la troisième et dernière étape, la stratégie de comparaison est appliquée aux systèmes testés, et une analyse longitudinale est réalisée en fonction du calcul du RD selon chaque stratégie de comparaison. Nous avons testé notre cadre d'évaluation sur deux collections de test évolutives simulées basées sur TREC-Robust et TREC-COVID, et nous avons appliqué notre cadre en utilisant une collection de tests acquise à partir du Web, LongEval. Les résultats suggèrent qu'une collection de tests évolutive offre des résultats plus variés que la création aléatoire de fragments à partir d'une collection de test pour évaluer la variabilité des performances. L'utilisation de collections de test évolutives montre également qu'il existe une relation entre l'évolution des collections de test et le changement de performance des systèmes. Enfin, le cadre d'évaluation continue des RDs connecte les différences entre les collections de tests et les différences de performance des systèmes pour i) fournir une évaluation continue ayant du sens, et ii) créer un classement correct des systèmes et une comparaison des performances à travers les époques. Ce travail constitue la base d'un cadre d'évaluation qui relie les KDs aux RDs dans un cadre d'évaluation continue explicatif.

Mots clés : Evaluation, Recherche d'information, Collection de tests évolutifs

Date et Lieu

Mardi 3 Octobre 2023 à 9h00
Bâtiment IMAG-UGA, Salle séminaire 2
et visioconférence

Superviseurs

Philippe MULHEM
Lorraine GOEURIOT

Composition du Jury

PHILIPPE MULHEM
CNRS DELEGATION ALPES (Directeur de thèse)

ERIC SAN JUAN
AVIGNON UNIVERSITE (Rapporteur)

JIAN-YUN NIE
UNIVERSITE DE MONTREAL (Rapporteur)

SIHEM AMER-YAHIA
CNRS DELEGATION ALPES (Examinatrice)

FLORINA PIROI
TECHNISCHE UNIVERSITÄT WIEN (Examinatrice)

DIDIER SCHWAB
UNIVERSITE GRENOBLE ALPES (Examinateur)

LORRAINE GOEURIOT
UNIVERSITE GRENOBLE ALPES (Invitée)

ROMAIN DEVEAUD
QWANT Search Engine (Invité)