Varsha DEVI | LIG - Université Grenoble Alpes

Mardi 12 Décembre 2023

Encodages multiples pour une représentation et une recherche par le contenu explicables de documents multimédia

Résumé

Cette thèse se penche sur le domaine de la recherche d'informations multimédias, avec un accent particulier sur la recherche conjointe de vidéos et de textes, appelée vidéo-texte. À l'ère du contenu multimédia vaste et diversifié sur Internet, la recherche de vidéos ou de textes pertinents est devenue un problème difficile. Avant 2012, les approches traditionnelles basées sur les mots-clés pour la recherche de vidéos et de textes étaient inefficaces et dépendaient fortement des annotations humaines. Avec l'avènement des modèles d'apprentissage profond, la performance des systèmes de recherche de vidéos et de textes a largement augmenté. Dans cette thèse, nous examinons trois approches pour la recherche de vidéo-textes : l'approche basée sur les concepts, qui utilise des concepts visuels prédéfinis et une banque de concepts ; l'approche sans concept, qui extrait directement des modèles à partir de données multimédias ; et l'approche hybride, qui combine des éléments des stratégies basées sur les concepts et des stratégies sans concept.

L'objectif principal de cette thèse de doctorat est de former et de développer un modèle hybride basé sur l'espace latent et l'espace conceptuel et d'effectuer les tâches de recherche et de classification simultanément, tout en fournissant des explications causales pour les résultats obtenus. Ce modèle de recherche basé sur la causalité vise à améliorer la compréhension du processus de prise de décision par l'utilisateur sans impacter négativement les performances.

Cette thèse explore les éléments fondamentaux de la recherche vidéo-texte, en soulignant les défis que posent l'alignement et la recherche d'informations à travers des modalités multiples. Dans la recherche vidéo-texte, l'ambiguïté des requêtes et les banques de concepts prédéfinies peuvent rendre difficile la compréhension précise de l'intention de l'utilisateur. Afin de mieux comprendre l'intention de la requête de l'utilisateur et de surmonter le problème de l'ambiguïté, dans la deuxième partie de cette thèse, nous étendons une approche hybride état de l’art en intégrant les balises Part-of-Speech (PoS) dans le modèle d'encodage double pour la recherche de vidéotexte. Nous étudions l'impact des balises PoS sur les performances et l'explicabilité des résultats de la recherche de vidéo-texte et montrons les avantages de l'utilisation des balises PoS pour améliorer la précision de la recherche, la précision et les performances globales du système.

Les modèles hybrides tels que le modèle d'encodage double ou le modèle d'intégration interprétable forment deux espaces communs (latent et conceptuel) afin de trouver la similarité entre la vidéo et le texte à des fins d'extraction, mais ces modèles manquent d'analyse des relations inter et intra entre ces espaces. Dans la troisième partie de ce travail, nous proposons un cadre général pour l'analyse des relations entre les différents espaces de représentations d’approches hybrides, l'espace (non-explicable) latent et l'espace (explicable) conceptuel, afin de comprendre dans quelle mesure les espaces explicables se différencient des non-explicables.

En outre, la thèse se lance dans une exploration complète de la complémentarité entre ces espaces.

Dans l’exploration sur l'explicabilité, la partie des modèles hybrides basée sur les concepts joue un rôle primordial. Elle identifie et extrait des concepts sémantiques à partir de données vidéo et textuelles, visualisées par des nuages de tags, ce qui rend le processus de recherche plus facile à interpréter et à comprendre. Les modèles actuels de l'état de l'art fournissent des explications à l'aide de nuages de mots-clés, mais les explications fournies ne sont pas causales. La dernière partie de cette thèse aborde le problème des l'explications visuelles causales et interprétables pour la recherche vidéo-texte. En fournissant une représentation visuelle des relations causales entre la requête et les résultats récupérés, les nuages de tags renforcent la confiance des utilisateurs et soutiennent les applications où la responsabilité et la perspicacité sont primordiales.

Date et Lieu

Mardi 12 Décembre 2023, à 14h00
Auditorium, Bâtiment IMAG
et Zoom

Superviseurs

Georges QUENOT
(LIG/MRIM)
Philippe MULHEM
(LIG/MRIM)

Composition du Jury

Jean MARTINET
Rapporteur, Professeur des Universités, Université Nice Sophia Antipolis / Université Côte d'Azur
Stéphane AYACHE
Rapporteur, Professeur des Universités, Polytech Marseille
Alexandre BENOIT
Examinateur, Professeur des Universités, Polytech Annecy-Chambéry
Danielle ZIÉBELIN
Examinateur, Professeur des Universités, Université Grenoble-Alpes
Georges QUÉNOT
Directeur, Directeur de Recherche CNRS, LIG
Philippe MULHEM
Co-Directeur, Chargé de Recherche CNRS, LIG