Handling the Deviation from Isometry Between Domains and Languages in Word Embeddings: Applications to Biomedical Text Translation - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

Handling the Deviation from Isometry Between Domains and Languages in Word Embeddings: Applications to Biomedical Text Translation

Alignement non supervisé d'embeddings de mots dans le domaine biomédical

Félix Gaschi
  • Fonction : Auteur
  • PersonId : 1120199
Parisa Rastin
  • Fonction : Auteur
  • PersonId : 1120200
Yannick Toussaint

Résumé

Previous literature has shown that it is possible to align word embeddings from different languages with unsupervised methods based on a distance-preserving mapping, with the assumption that the embeddings are isometric. However, these methods seem to work only when both embeddings are trained on the same domain. Nonetheless, we hypothesize that the deviation from isometry might be reduced between relevant subsets of embeddings from different domains, which would allow to partially align them. To support our hypothesis, we leverage the Bottleneck distance, a topological data analysis tool used to approximate the deviation from isometry. We also propose a cross-domain and crosslingual unsupervised alignment method based on a proxy embedding, as a first step towards new cross-lingual alignment methods that generalize to different domains. Results of such a method on translation tasks show that unsupervised alignment methods are not doomed to fail in a crossdomain setting. We obtain BLEU-1 scores ranging from 0.38 to 0.50 on translation tasks, where previous fully unsupervised alignment methods obtain near-zero scores in cross-domain settings.
Notre objectif est de créer un alignement non supervisé et multilingue d'embeddings de mots (ou plongements lexicaux) basés sur des corpora de domaines différents. Plus précisément, nous cherchons à aligner un embedding cible anglais du domaine biomédical avec un embedding source du domaine général d'une autre langue, puisque les textes à traiter sont dans diverses langues (français, espagnol.. .) et que le vocabulaire du domaine biomédical est essentiellement disponible en anglais. Notre méthode pour aligner deux embeddings de domaines et langages différents repose sur un autre embedding pivot de même domaine que la source et de même langage que la cible. Notre méthode aligne d'abord les embeddings de même domaine pour créer un dictionaire qui sert ensuite à aligner les embeddings de domaines et languages distincts. Elle est évaluée sur une tâche de traduction du domaine biomédical dans plusieurs langues. Bien que notre algorithme ne dépasse pas les méthodes d'alignement entre embeddings de même domaine, elle dépasse ces mêmes méthodes appliquées à des embeddings de domaines différents. Ce travail préliminaire montre qu'aligner des embeddings de domaines différents est possible de manière non supervisé.
Fichier principal
Vignette du fichier
main.pdf (462.44 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03477901 , version 1 (13-12-2021)
hal-03477901 , version 2 (17-02-2022)

Identifiants

Citer

Félix Gaschi, Parisa Rastin, Yannick Toussaint. Handling the Deviation from Isometry Between Domains and Languages in Word Embeddings: Applications to Biomedical Text Translation. 28th International Conference on Neural Information Processing (ICONIP 2021), Dec 2021, Bali, Indonesia. pp.216-227, ⟨10.1007/978-3-030-92270-2_19⟩. ⟨hal-03477901v2⟩
132 Consultations
108 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More