Un corpus en arabe annoté manuellement avec des sens WordNet - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Arabic Manually Sense Annotated Corpus with WordNet Senses

Un corpus en arabe annoté manuellement avec des sens WordNet

Résumé

OntoNotes comprend le seul corpus manuellement annoté en sens librement disponible pour l'arabe. Elle reste peu connue et utilisée certainement parce que le projet s'est achevé sans lier cet inventaire au Princeton WordNet qui lui aurait ouvert l'accès à son riche écosystème. Dans cet article, nous présentons une version étendue de OntoNotes Release 5.0 que nous avons créée en suivant une méthodologie de construction semi-automatique. Il s'agit d'une mise à jour de la partie arabe annotée en sens du corpus en ajoutant l'alignement vers le Princeton WordNet 3.0. Cette ressource qui comprend plus de 12 500 mots annotés est librement disponible pour la communauté. Nous espérons qu'elle deviendra un standard pour l'évaluation de la désambiguïsation lexicale de l'arabe.
OntoNotes is the only Arabic Manually Annotated Corpus freely available for the Arabic language. It remains little known and exploited certainly because the project ended without linking this inventory to Princeton WordNet which would have given it access to its rich ecosystem. In this article, we present an extended version of OntoNotes Release 5.0 that we created using a semi-automatic construction methodology. This is an update of the Arabic part of the sense-annotated corpus by adding the alignment to the Princeton WordNet 3.0. This resource that includes more than 12,500 annotated words will be freely available for the community. We hope that it will become a standard for the evaluation of the lexical disambiguation of Arabic. MOTS-CLÉS : Corpus annoté en sens, langue arabe, alignement de sens interlingues.
Fichier principal
Vignette du fichier
Taln2018_demo_Hadj-Salah-et-al.pdf (195.16 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01781188 , version 1 (29-04-2018)

Identifiants

  • HAL Id : hal-01781188 , version 1

Citer

Marwa Hadj Salah, Hervé Blanchon, Mounir Zrigui, Didier Schwab. Un corpus en arabe annoté manuellement avec des sens WordNet. 25e conférence sur le Traitement Automatique des Langues Naturelles, May 2018, Rennes, France. ⟨hal-01781188⟩
203 Consultations
193 Téléchargements

Partager

Gmail Facebook X LinkedIn More