Disambiguating vectors for bilingual lexicon extraction from comparable corpora - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Disambiguating vectors for bilingual lexicon extraction from comparable corpora

Razdvoumljanje vektorjev za izboljšanje luščenja dvojezičnih leksikonov iz primerljivih korpusov

Nikola Ljubesic
  • Fonction : Auteur
  • PersonId : 990315
Darja Fiser
  • Fonction : Auteur
  • PersonId : 907730

Résumé

This paper presents an approach to enhance the extraction of translation equivalents from comparable corpora by plugging in bilingual lexico-semantic knowledge harvested from a parallel corpus. First, the bilingual lexicon obtained from word-aligning the parallel corpus replaces an external seed dictionary, making the approach knowledge-light and portable. Next, instead of using simple 1:1 mappings between the source and the target language, translation equivalents are clustered into sets of synonyms based on contextual similarities, enabling us to expand the translation of vector features with several translation variants. And last but not least, the vector features are disambiguated and translated only with the translation variants from the most appropriate cluster, thus producing less noisy vectors that allow for a more successful cross-lingual comparison of the vectors compared to simpler methods.
Razdvoumljanje vektorjev za izboljšanje luščenja dvojezičnih leksikonov iz primerljivih korpusov V prispevku predstavljamo pristop za izboljšanje luščenja prevodnih ustreznic iz primerljivih korpusov z dodatnim virom leksiko-semantičnega znanja, izluščenega iz vzporednega korpusa. Za razliko od večine sorodnih pristopov dvojezični leksikon, potreben za prevajanje kontekstnih vektorjev, izdelamo avtomatsko iz vzporednega korpusa. Tako pristop ni več odvisen od slovarja, potrebnega za prevajanje kontekstnih vektorjev in je tako prenosljiv na številne jezikovne pare in strokovna področja. V naslednjem koraku prevodne ustreznice v dvojezičnem leksikonu razvrstimo v gruče, kar nam omogoča, da lastnosti v kontekstnih vektorjev, izdelanih iz primerljivih korpusov, prevajamo z več kot eno prevodno različico. To nam olajša primerjavo kontekstnih vektorjev v izvornem in ciljnem jeziku. Tretja izboljšava, ki jo v prispevku predstavljamo, pa je razdvoumljanje večpomenski lastnosti kontekstnih vektorjev iz primerljivega korpusa z gručami, generiranimi iz dvojezičnega leksikona, ki omogoča natančnejše prevajanje vektorjev in izboljša njihovo primerjavo z vektorji v ciljnem jeziku.
Fichier principal
Vignette du fichier
Apidianaki_Ljubesic_Fiser_2012.pdf (345.77 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01838573 , version 1 (13-07-2018)

Identifiants

  • HAL Id : hal-01838573 , version 1

Citer

Marianna Apidianaki, Nikola Ljubesic, Darja Fiser. Disambiguating vectors for bilingual lexicon extraction from comparable corpora. Language Technologies Conference, Jan 2012, Ljubljana, Slovenia. ⟨hal-01838573⟩
19 Consultations
16 Téléchargements

Partager

Gmail Facebook X LinkedIn More