MULTEXT-East Resources for Serbian - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2004

MULTEXT-East Resources for Serbian

Cvetana Krstev
  • Fonction : Auteur
  • PersonId : 963257
Duško Vitas
  • Fonction : Auteur
  • PersonId : 963258

Résumé

MULTEXT-East is a multilingual dataset for language engineering research and development. This standardised and linked set of resources covers a large number of mainly Central and Eastern European languages and includes the EAGLES-based morphosyntactic specifications, defining the features that describe word-level syntactic annotations; medium scale morphosyntactic lexica; and annotated parallel, comparable, and speech corpora. The most important component is the linguistically annotated corpus consisting of Orwell's novel "1984" in the English original and translations. MULTEXT-East has already seen several editions, with the latest one being Version 3, where the most important addition has been that of Serbian language resources. The paper presents MULTEXT-East Version 3 with special emphasis on the Serbian components, namely the structurally annotated "1984", the morphosyntactic specifications, the morphosyntactic lexicon and the linguistically annotated "1984". The complete dataset, unique in terms of languages and the wealth of encoding, is extensively documented, and freely available for research purposes.
Jezikovni viri MULTEXT-East za srbski jezik MULTEXT-East je večjezikovna podatkovna množica, namenjena raziskavam in razvoju jezikovnih tehnologij. Ta standardizirana in povezana množica jezikovnih virov pokriva velik stevilo predvsem srednje-in vzhodnoevropskih jezikov in vsebuje (1) oblikoslovne specifikacije, ki definirajo oznake za opis skladenjskih lastnosti besed, (2) oblikoslovne leksikone srednje velikosti in (3) označene vzporedne, primerljive in govorjene korpuse. Najpomembnejša komponenta je jezikovno označen korpus, ki vsebuje roman "1984" G. Orwella v angleškem originalu in prevodih. MULTEXT-East je dožive ze več izdaj, pr cemer je zadnja t.i. verzija 3, kjer so glavni dodatek viri za srbski jezik Clanek predstavi MULTEXT-East verzijo 3 s posebnim poudarkom na srbskih komponentah, in sicer na strukturno označenem besedilu romana "1984", oblikoslovnih specifikacijah, oblikoslovnem leksikonu in jezikovno označenem besedilu "1984". Celotna podatkovna množica, enkratna glede na vsebovane jezike in bogastvo oznak, je podrobno dokumentirana in prosto dostopna v raziskovalne namene.
Fichier principal
Vignette du fichier
sdjt04-21krstev.pdf (55.84 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01108226 , version 1 (22-01-2015)

Identifiants

  • HAL Id : hal-01108226 , version 1

Citer

Cvetana Krstev, Duško Vitas, Tomaž Erjavec. MULTEXT-East Resources for Serbian. Zbornik 7. mednarodne multikonference Informacijska druzba IS 2004 Jezikovne tehnologije 9-15 Oktober 2004, Ljubljana, Slovenija, 2004, Oct 2004, Ljubljana, Slovenia. ⟨hal-01108226⟩

Collections

LIGM_LINGU_INVITE
78 Consultations
193 Téléchargements

Partager

Gmail Facebook X LinkedIn More