Ruslan Kalitvianski - Traitements formels et sémantiques des échanges et des documents textuels liés à des activités collaboratives

14:00
Mardi
20
Mar
2018
Lieu : 
Organisé par : 
Ruslan Kalitvianski
Intervenant : 
Ruslan Kalitvianski - GETALP
Équipes : 
Information détaillée : 

 

Membres du Jury :

  • Rapporteurs
    • Adeline NAZARENKO, professeur, Université Paris 13 
    • Anne VILNAT, professeur, Université Paris-Sud
  • Examinateurs
    • Emmanuel MORIN, professeur, Université de Nantes
    • Violaine PRINCE, professeur, Université de Montpellier
    • Marie-Christine ROUSSET, professeur, Université Grenoble Alpes
  • Directeurs de thèse
    • Christian BOITET, professeur émérite, Université Grenoble Alpes (Directeur)
    • Valérie BELLYNCK, maître de conférences, Grenoble INP (Co-directeur)
    • Frédérique SEGOND, professeur associé, INaLCO, (Co-encadrante)

 

Résumé : 

Cette thèse s’inscrit dans la problématique de l’extraction de sens à partir de textes et flux textuels, produits dans notre cas lors de processus collaboratifs. Plus précisément, nous nous intéressons aux courriels de travail et aux documents textuels objets de collaboration, avec une première application aux documents éducatifs. La motivation de cet intérêt est d’aider les utilisateurs à accéder plus rapidement aux informations utiles ; nous cherchons donc à les repérer dans les textes. Ainsi, nous nous intéressons aux tâches dans les courriels, et aux fragments de documents éducatifs qui concernent les thèmes de leurs intérêts. Deux corpus, un de courriels et un de documents éducatifs, principalement en français, ont été constitués. Cela était indispensable, car il n’y a pratiquement pas de travaux antérieurs sur ce type de données en français.

Nous utilisons une modélisation générique de la structure de ces données pour spécifier le traitement formel des documents, prérequis au traitement sémantique. Nous démontrons la difficulté du problème de segmentation, normalisation et structuration de documents en différents formats source, et présentons l’outil SEGNORM, qui segmente et normalise les documents (en texte brut ou balisé), récursivement et en unités de taille paramétrable. Dans le cas des courriels, il segmente les messages contenant des messages cités en messages individuels, en conservant l’information du chaînage entre les fragments entremêlés. Il analyse également les métadonnées des messages pour reconstruire les fils de discussions, et retrouve dans les citations les messages dont on ne possède pas le fichier source. Nous abordons ensuite le traitement sémantique de ces documents. Nous proposons une modélisation de la notion de tâche, puis décrivons l’annotation d’un corpus de plusieurs centaines de messages issus du contexte professionnel de VISEO et du GETALP. Nous présentons alors un outil de repérage de tâches et d’extraction de leurs attributs (contraintes temporelles, assignataires, etc.). Cet outil, basé sur une combinaison d’une approche experte et d’apprentissage automatique, est évalué selon des critères classiques de précision, rappel et F-mesure, ainsi que selon la qualité d’usage.

Enfin, nous présentons nos travaux sur la plate-forme MACAU-Chamilo, qui vise à aider à l’apprentissage par (1) structuration de documents pédagogiques selon deux ontologies (forme et contenu), (2) accès multilingue à du contenu initialement monolingue. (1) L’ontologie des formes permet d’annoter les fragments des documents par des concepts comme théorème, preuve, exemple, par des niveaux de difficulté et d’abstraction, et par des relations comme élaboration_de, illustration_de. L’ontologie de domaine modélise les objets formels de l’informatique, et plus précisément les notions de complexité calculatoire. Cela permet de suggérer aux utilisateurs des fragments utiles pour la compréhension de notions d’informatique perçues comme abstraites ou difficiles. (2) L’aspect relatif à l’accès multilingue a été motivé par le constat que nos universités accueillent un grand nombre d’étudiants étrangers, qui ont souvent du mal à comprendre nos cours à cause de la barrière linguistique. Nous avons proposé une approche pour multilingualiser du contenu pédagogique avec l’aide d’étudiants étrangers, par post-édition en ligne de pré-traductions automatiques, puis, si besoin, amélioration incrémentale de ces post-éditions. (Nos expériences ont montré que des versions multilingues de documents peuvent être produites rapidement et sans coût.) Ce travail a abouti à un corpus de plus de 500 pages standard (250 mots/page) de contenu pédagogique post-édité vers le chinois.