Un corpus en arabe annoté manuellement avec des sens WordNet

Résumé : OntoNotes is the only Arabic Manually Annotated Corpus freely available for the Arabic language. It remains little known and exploited certainly because the project ended without linking this inventory to Princeton WordNet which would have given it access to its rich ecosystem. In this article, we present an extended version of OntoNotes Release 5.0 that we created using a semi-automatic construction methodology. This is an update of the Arabic part of the sense-annotated corpus by adding the alignment to the Princeton WordNet 3.0. This resource that includes more than 12,500 annotated words will be freely available for the community. We hope that it will become a standard for the evaluation of the lexical disambiguation of Arabic. MOTS-CLÉS : Corpus annoté en sens, langue arabe, alignement de sens interlingues.
Type de document :
Communication dans un congrès
25e conférence sur le Traitement Automatique des Langues Naturelles, May 2018, Rennes, France
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01781188
Contributeur : Didier Schwab <>
Soumis le : dimanche 29 avril 2018 - 17:22:22
Dernière modification le : jeudi 11 octobre 2018 - 08:48:03
Document(s) archivé(s) le : mardi 25 septembre 2018 - 12:30:37

Fichier

Taln2018_demo_Hadj-Salah-et-al...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01781188, version 1

Collections

Citation

Marwa Salah, Hervé Blanchon, Mounir Zrigui, Didier Schwab. Un corpus en arabe annoté manuellement avec des sens WordNet. 25e conférence sur le Traitement Automatique des Langues Naturelles, May 2018, Rennes, France. 〈hal-01781188〉

Partager

Métriques

Consultations de la notice

98

Téléchargements de fichiers

65