Aller au contenu principal

Mahault Garnerin

Mercredi 16 Mars 2022

Des données aux systèmes. Étude des liens entre données d'apprentissage et biais de performance genrés dans les systèmes de reconnaissance automatique de la parole

Résumé de la thèse :
 
Certains systèmes issus de l'apprentissage machine, de par leurs données et les impensés qu'ils encapsulent, contribuent à reproduire des inégalités sociales, alimentant un discours sur « les biais de l'intelligence artificielle ». Ce travail de thèse se propose de contribuer à la réflexion collective sur les biais des systèmes automatiques en questionnant l'existence de biais de genre dans les systèmes de reconnaissance automatique de la parole ou ASR (Automatic Speech Recognition).
Penser l'impact des systèmes nécessite une articulation entre les notions de biais (ayant trait à la constitution du système et de ses données) et de discrimination, définie au niveau de la législation de chaque pays. On considère un système comme discriminatoire lorsqu'il effectue une différence de traitement sur la base de critères considérés comme brisant le contrat social. En France, le sexe et l'identité de genre font partie des 23 critères protégés par la législation.
Après une réflexion théorique autour des notions de biais, et notamment sur le biais prédictif (ou biais de performance) et le biais de sélection, nous proposons un ensemble d'expériences pour tenter de comprendre les liens entre biais de sélection dans les données d'apprentissage et biais prédictif du système. Nous nous basons sur l'étude d'un système HMM-DNN appris sur des corpus médiatiques francophones, et d'un système end-to-end appris sur des livres audio en anglais. Nous observons ainsi qu'un biais de sélection de genre important dans les données d'apprentissage contribue de façon assez partielle au biais prédictif d'un système d'ASR, mais que ce dernier émerge néanmoins lorsque les données de parole regroupent des situations d'énonciation et des rôles de locuteurs et locutrices différents. Ce travail nous a également conduite à questionner la représentation des femmes dans les données, et plus généralement à repenser les liens entre conception théorique du genre et systèmes d'ASR.

Date et Lieu

Mercredi 16 Mars 2022 à 14h00
Dans l'auditorium du Bâtiment IMAG
et https://univ-grenoble-alpes-fr.zoom.us/j/93676758244?pwd=WVc3UHlkaWcrcEg4NExCV3R2aklpUT09

Composition du Jury

Jean-François BONASTRE
Professeur des universités, Université d'Avignon, Rapporteur
Frédérique SEGOND
Directrice de recherches, INRIA, Rapportrice
Maria CANDEA
Professeur des universités, Université Sorbonne Nouvelle, Examinatrice
François PORTET
Professeur des universités, Université Grenoble Alpes, Examinateur
Laurent BESACIER
Principal Scientist, NAVER Labs Europe & Professeur, Université Grenoble Alpes, Co-directeur de thèse
Claudine MOÏSE
Professeur des universités, Université Grenoble Alpes, Co-directrice de thèse 
Solange ROSSATO
Maîtresse de conférences, Université Grenoble Alpes, Co-directrice de thèse

Publié le 8 mars 2022

Mis à jour le 8 mars 2022