Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l'hétérogénéité des données d'entrainement

Les modèles de langue neuronaux contextuels sont désormais omniprésents en traitement automatique des langues. Jusqu’à récemment, la plupart des modèles disponibles ont été entraînés soit sur des données en anglais, soit sur la concaténation de données dans plusieurs langues. L’utilisation pratique de ces modèles — dans toutes les langues sauf l’anglais — était donc limitée. La sortie récente de plusieurs modèles monolingues fondés sur BERT (Devlin et al., 2019), notamment pour le français, a démontré l’intérêt de ces modèles en améliorant l’état de l’art pour toutes les tâches évaluées. Dans cet article, à partir d’expériences menées sur CamemBERT (Martin et al., 2019), nous montrons que l’utilisation de données à haute variabilité est préférable à des données plus uniformes. De façon plus surprenante, nous montrons que l’utilisation d’un ensemble relativement petit de données issues du web (4Go) donne des résultats aussi bons que ceux obtenus à partir d’ensembles de données plus grands de deux ordres de grandeurs (138Go).

Mots clés

Impact jeu de données BERT CamemBERT Modèles de langue contextuels

Domaines

Informatique et langage [cs.CL]

Fichier principal

151.pdf (578.19 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Sylvain Pogodalla : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02784755

Soumis le : dimanche 7 juin 2020-20:57:05

Dernière modification le : samedi 7 octobre 2023-21:36:21

Dates et versions

hal-02784755 , version 1 (07-06-2020)

hal-02784755 , version 2 (18-06-2020)

hal-02784755 , version 3 (23-06-2020)

Licence

Paternité

Identifiants

HAL Id : hal-02784755 , version 1

Citer

Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoan Dupont, Laurent Romary, et al.. Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l'hétérogénéité des données d'entrainement. JEP-TALN-RECITAL 2020 - 33ème Journées d’Études sur la Parole, 27ème Conférence sur le Traitement Automatique des Langues Naturelles, 22ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, Jun 2020, Nancy, France. pp.54-65. ⟨hal-02784755v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

884 Consultations

2590 Téléchargements