Mercredi 5 octobre 2022
Classification de transcriptions orales dans un contexte applicatif peu doté : application du TAL pour l'analyse de verbatim destinée à l'évaluation de l'acceptabilité d'une innovation
Résumé de la thèse
Ce travail de thèse a pour objectif de répondre à une demande initiée par la société Ixiade dans l'optique d'automatiser une partie de ses méthodes d'analyse de contenu via les techniques du TALN. Dans cette thèse, nous nous intéressons à des données issues de transcriptions d'entretiens et des données en ligne qui ont été collectées dans le cadre d'études d'acceptabilité des innovations.
 
L'originalité de cette thèse est d'utiliser des méthodes d'amplification des données et des modèles de type Transformer sur de la classification de données de l'oral transcrit et des données issues d'une plateforme communautaire pour la langue française. Les contributions sont les suivantes : (1) Mise en œuvre d'une méthodologie de construction de données d'apprentissage et de test dans un contexte où les données sont indisponibles ; (2) Proposition d'une méthode d'extraction et de filtrage des contenus en fonction des classes à classifier reposant sur des patrons morphosyntaxiques ; (3) Implémentation de différentes techniques d'amplification des données textuelles pour l'oral transcrit et du contenu en ligne ; (4) Comparaison des performances de différents modèles de langue contextualisés pour la langue française sur notre tâche de classification ; (5) Examen de l'apport de l'amplification des données dans un contexte peu doté.
 
Dans un premier temps, nous avons construit trois corpus d'apprentissage de nature différente. Le premier a été construit en utilisant des archives d'anciennes études réalisées, le deuxième a été construit à partir d'un autre corpus et le dernier provenait de projets d'études réalisés sur une plateforme. Pour cela, nous avons mis en place une procédure spécifique au contexte de travail chez Ixiade pour l'annotation des données dans le but de construire des corpus d'apprentissage et d'évaluation.
 
Dans un deuxième temps, nous avons sélectionné un corpus parmi nos corpus collectés pour implémenter une méthode d'extraction et de validation des phrases extraites. La méthode d'extraction a permis de produire des résultats satisfaisants, mais non suffisants pour être utilisés dans l'objectif d'agrandir nos corpus initiaux d'apprentissage. En outre, afin de limiter le taux d'erreurs produit par cette méthode, nous avons également utilisé une méthode de filtrage sur les extractions faites par la première méthode. Les évaluations et les résultats des méthodes de filtrage n’ont pas permis d’augmenter significativement la précision dans l’extraction
des phrases en fonction de nos classes.
 
Dans un troisième temps, nous nous sommes focalisés sur l’amplification de données et son apport pour la tâche de classification qui nous incombait. Pour cela, nous avons comparé les résultats produits par ces méthodes combinées à des architectures de type Transformer. Ces expérimentations ont permis de montrer l'apport non négligeable de l'amplification dans notre contexte de recherche.
 
Globalement, ces travaux ont permis de montrer l'intérêt des méthodes d'amplification dans un cadre où les données sont non disponibles et ouvre des perspectives dans cette tâche. S'agissant du recours au modèle de type Transformer choisi dans cette thèse, les modèles développés uniquement pour le français ont montré de bonnes performances par rapport aux modèles multilingues.
Mis à jour le 26 September 2022