Skip to Main content Skip to Navigation
New interface
Conference papers

La génération de textes artificiels en substitution ou en complément de données d’apprentissage

Vincent Claveau 1 Antoine Chaffin 1, 2 Ewa Kijak 1 
1 LinkMedia - Creating and exploiting explicit links between multimedia fragments
Inria Rennes – Bretagne Atlantique , IRISA-D6 - MEDIA ET INTERACTIONS
Résumé : La qualité des textes générés artificiellement s’est considérablement améliorée avec l’apparition des transformers. La question d’utiliser ces modèles pour augmenter les données d’apprentissage pour des tâches d’apprentissage supervisé se pose naturellement. Dans cet article, cette question est explorée sous 3 aspects : (i) les données artificielles sont-elles un complément efficace ? (ii) peuvent-elles remplacer les données d’origines quand ces dernières ne peuvent pas être distribuées, par exemple pour des raisons de confidentialité ? (iii) peuvent-elles améliorer l’explicabilité des classifieurs ? Différentes expériences sont menées sur une tâche de classification en utilisant des données générées artificiellement en adaptant des modèles GPT-2. Les résultats montrent que les données artificielles ne sont pas encore suffisamment bonnes et nécessitent un pré-traitement pour améliorer significativement les performances. Nous montrons que les approches sac-de-mots bénéficient le plus de telles augmentations de données.
Document type :
Conference papers
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-03265896
Contributor : Yannick Parmentier Connect in order to contact the contributor
Submitted on : Wednesday, June 23, 2021 - 11:44:16 PM
Last modification on : Friday, August 5, 2022 - 2:54:52 PM
Long-term archiving on: : Friday, September 24, 2021 - 7:13:27 PM

File

41.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-03265896, version 1

Citation

Vincent Claveau, Antoine Chaffin, Ewa Kijak. La génération de textes artificiels en substitution ou en complément de données d’apprentissage. TALN 2021 - 28e Conférence sur le Traitement Automatique des Langues Naturelles, Jun 2021, Lille, France. pp.37-49. ⟨hal-03265896⟩

Share

Metrics

Record views

155

Files downloads

167