Un corpus en arabe annoté manuellement avec des sens WordNet

Abstract : OntoNotes comprend le seul corpus manuellement annoté en sens librement disponible pour l'arabe. Elle reste peu connue et utilisée certainement parce que le projet s'est achevé sans lier cet inventaire au Princeton WordNet qui lui aurait ouvert l'accès à son riche écosystème. Dans cet article, nous présentons une version étendue de OntoNotes Release 5.0 que nous avons créée en suivant une méthodologie de construction semi-automatique. Il s'agit d'une mise à jour de la partie arabe annotée en sens du corpus en ajoutant l'alignement vers le Princeton WordNet 3.0. Cette ressource qui comprend plus de 12 500 mots annotés est librement disponible pour la communauté. Nous espérons qu'elle deviendra un standard pour l'évaluation de la désambiguïsation lexicale de l'arabe.
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01781188
Contributor : Didier Schwab <>
Submitted on : Sunday, April 29, 2018 - 5:22:22 PM
Last modification on : Monday, February 11, 2019 - 4:36:02 PM
Document(s) archivé(s) le : Tuesday, September 25, 2018 - 12:30:37 PM

File

Taln2018_demo_Hadj-Salah-et-al...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01781188, version 1

Collections

Citation

Marwa Hadj Salah, Hervé Blanchon, Mounir Zrigui, Didier Schwab. Un corpus en arabe annoté manuellement avec des sens WordNet. 25e conférence sur le Traitement Automatique des Langues Naturelles, May 2018, Rennes, France. ⟨hal-01781188⟩

Share

Metrics

Record views

120

Files downloads

110