Approches quantitatives de l'analyse des prédictions en traduction automatique neuronale (TAN)

Maria Zimina-Poirot; Nicolas Ballier; Jean-Baptiste Yunès

Communication Dans Un Congrès Année : 2020

Approches quantitatives de l'analyse des prédictions en traduction automatique neuronale (TAN)

(1) , (1) , (2)

1
2

Maria Zimina-Poirot

Fonction : Auteur
PersonId : 4562
IdHAL : maria-zimina
ORCID : 0000-0002-0892-2531
IdRef : 087626497

Centre de Linguistique Inter-langues, de Lexicologie, de Linguistique Anglaise et de Corpus

Nicolas Ballier

Fonction : Auteur
PersonId : 7391
IdHAL : nicolas-ballier
ORCID : 0000-0003-2179-1043
IdRef : 057712409

Centre de Linguistique Inter-langues, de Lexicologie, de Linguistique Anglaise et de Corpus

Jean-Baptiste Yunès

Fonction : Auteur
PersonId : 4898
IdHAL : jean-baptiste-yunes
IdRef : 057435960

Institut de Recherche en Informatique Fondamentale

Résumé

As part of a larger project on optimal learning conditions in neural machine translation, we investigate characteristic training phases of translation engines. All our experiments are carried out using OpenNMT-Py: the pre-processing step is implemented using the Europarl training corpus and the INTERSECT corpus is used for validation. Longitudinal analyses of training phases suggest that the progression of translations is not always linear. Following the results of textometric explorations, we identify the importance of the phenomena related to chronological progression, in order to map different processes at work in neural machine translation (NMT).

Dans le cadre d’un projet plus vaste consacré à l’analyse des conditions d’apprentissage optimales pour la traduction, nous cherchons à identifier des phases caractéristiques de l’entraînement des moteurs de traduction neuronaux. Nos expériences ont été réalisées avec OpenNMT-Py. Le pré-traitement a été effectué sur le corpus d’entraînement Europarl et le corpus de validation INTERSECT. Les analyses longitudinales des différentes phases d’entraînement suggèrent que la progression des traductions n’y est pas toujours linéaire. Les analyses textométriques des volets montrent l’importance des phénomènes liés à la progression chronologique et permettent établir progressivement une cartographie des processus à l’œuvre dans la traduction automatique neuronale (TAN).

Mots clés

statistical analysis of textual data textometrics neural machine translation analyses statistiques de données textuelles

textométrie traduction automatique neuronale analyses statistiques de données textuelles

Domaines

Linguistique Intelligence artificielle [cs.AI]

Fichier principal

JADT2020_Zimina_Ballier_Yunes.pdf (535.16 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Maria Zimina-Poirot : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03049589

Soumis le : mercredi 9 décembre 2020-22:40:26

Dernière modification le : dimanche 9 juillet 2023-10:07:00

Archivage à long terme le : mercredi 10 mars 2021-20:19:17

Dates et versions

hal-03049589 , version 1 (09-12-2020)

Identifiants

HAL Id : hal-03049589 , version 1
ARXIV : 2012.05541

Citer

Maria Zimina-Poirot, Nicolas Ballier, Jean-Baptiste Yunès. Approches quantitatives de l'analyse des prédictions en traduction automatique neuronale (TAN). JADT 2020 : 15èmes Journées Internationales d'Analyse statistique des Données Textuelles, Université de Toulouse, Jun 2020, Toulouse, France. ⟨hal-03049589⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS CLILLAC-ARP UP-SCIENCES UP-SOCIETES-HUMANITES IRIF

55 Consultations

80 Téléchargements

Approches quantitatives de l'analyse des prédictions en traduction automatique neuronale (TAN)

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager