Ressource Pantagruel | LIG - Université Grenoble Alpes

Unified Self-Supervised Encoders for French Text and Speech

Pantagruel est une famille de modèles encodeurs autosupervisés pour le texte et la parole en français, entraînés dans un cadre d'apprentissage de représentations unifié. Ce travail est le fruit d'une collaboration entre l'Université Grenoble Alpes (LIG), l'Institut National de l'Audiovisuel (INA), Avignon Université (LIA), l'Institut Polytechnique de Paris (CREST), l'Université Paris Cité (LLF) et l'Université Bretagne Sud (IRISA).

Pantagruel exploite des objectifs prédictifs dans l'espace des représentations (JEPA / data2vec 2.0) pour entraîner les deux modalités en utilisant le même cadre d'apprentissage.

Pour la parole, nous avons entraîné des modèles en utilisant l'objectif de prédiction de représentations masquées data2vec 2.0 sur des données audio diverses en français : Multilingual LibriSpeech (~1K h), LeBenchmark (~14K h) et INA-100k, un corpus de 100 000 heures de parole radiodiffusée en français nouvellement introduit et fourni par l'INA.

Pour le texte, nous combinons la prédiction dans l'espace des représentations de type data2vec avec la modélisation de langage masqué (MLM) pour capturer à la fois des informations contextuelles et linguistiques à grain fin. Différents modèles ont été entraînés sur les ensembles de données Wikipedia (4 Go), OSCAR (138 Go) et CroissantLLM (1,5 To).

Les points clés:

-   Cadre d'entraînement unifié pour les encodeurs de texte et de
   parole en français
-   Prédiction de représentations masquées de type JEPA / data2vec 2.0
-   data2vec 2.0 + MLM hybride pour les encodeurs de texte
-   Résultats compétitifs par rapport aux références françaises
   établies

Modèles publiés sur Hugging Face

📄 Article: https://arxiv.org/abs/2601.05911

🤗 Modèles: https://huggingface.co/PantagrueLLM

-   Modèles de parole:
   https://huggingface.co/collections/PantagrueLLM/speech-only-models
-   Modèles de texte:
   https://huggingface.co/collections/PantagrueLLM/text-only-models

Nous espérons que Pantagruel servira de ressource utile pour les communautés de recherche s'intéressant à la modélisation de la parole et de l’écrit en français.