Skip to Main content Skip to Navigation
Conference papers

FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français

Résumé : Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cet article, nous présentons et partageons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente sont entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.
Document type :
Conference papers
Complete list of metadatas

Cited literature [52 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02784776
Contributor : Sylvain Pogodalla <>
Submitted on : Tuesday, June 23, 2020 - 12:09:12 PM
Last modification on : Thursday, July 9, 2020 - 9:44:22 AM

File

66.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-02784776, version 3

Citation

Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, et al.. FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles, Jun 2020, Nancy, France. pp.268-278. ⟨hal-02784776v3⟩

Share

Metrics

Record views

30

Files downloads

27