Restoring Arabic vowels through omission-tolerant dictionary lookup - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Language Resources and Evaluation Année : 2020

تشْكيل الكَلِمات عَبْرَ مَوارد حاسوبيّة

Restoring Arabic vowels through omission-tolerant dictionary lookup

Résumé

تشْكيل الكَلِمات عَبْرَ مَوارد حاسوبيّة

الحركاتُ رموزٌ إختياريٌ كتابتها في اللّغة العربية، وتُكتب كل حركةٍ فوق أو تحت الحرف المُناطة إليه. تشمل معظم النصوص العربية على كلمات مُشكَلة جزئيًا ولا يتعدى عامةً نسبتها 3٪ من الكلمات وهذه النسبة تتوقف على الناشر والكاتب والميدان المتخصِص. على الرغم من أن العديد من الدراسات العلمية قد تمَّ نشرها في مسألة حذف الحركات في تقنيات الكلام، فقد أولِيَ اهتمام لا يذكر لنفس المشكلة في الدراسات المخصصة لتقنيات العربية المكتوبة.

في هذا البحث، نقدم وصفاً مفصلاً لحذف الحركات في النصوص المكتوبة والقواعد المطبعية ذات الصلة وقواعد حذفهما في الموارد الحاسوبيَّة. مواردنا قادرة على التعرُّف على الكلمات المشكلة كلياً أو جزئيا أو غير المشكلة كما وإعادة الحركات لكلٍ منها،

في دراسات سابقة، اقترحنا تصنيفات للأفعال وتصنيفات لجموع لتكسير مبنية على أُسُس علم الصرف التقليدي. ففي حين يحتوي علم الصرف التقليدي على توصيف القواعد الاشتقاقية وغير الاشتقاقية، يستند وصفنا على الصرف غير الإشقاقي حصرباً. والجديد في مقاربتنا يكمن في عكس مقاربة علم الصرف التقليديّة التي هي معادلة (الجذر–الوزن) إلى (الوزن–الجذر) مع إعطاء الأولوية للوزن على حساب الجذر. هذا التغيير سمح لنا التعرّف على الفعل كمدخل معجمي بشكل أسرع وأدقّ وبالتالي التعرّف على جذره ووزنه، كما قلّص تحديد وبرمجة مئات القواعد الصرفيّة والإملائية التي تربط أشكال الفعل بجذره ووزنه.

وقد تم بناء المورد اللغوي يدويًا ويحتوي على 76000 مدخل معجمي محرّك بأكمله. تمّ تصريف هذا المورد ليحتوي على 6 ملايين شكل محرَّك أيضاً. وقد تمّ إضافة السوابق واللواحق لهذه الأشكال عن طريق قواعد تلاصقيّة نحويّة دقيقة حول فعل أساس، إسم، أو صفة. هذه القواعد تحدِّد تتابع الشرائح المسموح بها من سوابق ولواحق حول شريحة أساسية.

يحتاج حاسوب محمول إلى دقيقة واحدة لتوليد 6 ملايين شكل محرّك وحجم الملف 340 ميغابايت، قد تمّ ضغطه إلى 8 ميغابايت للبحث السريع. يقوم برنامجنا بتحليل 15000 كلمة في الثانية (50 صفحات/ثانية). والتغطية المعجمية لمواردنا تضاهي 99٪ لنصوص من الصحف العامة.

في هذه الدراسة، نركز على توصيف قواعد حذف الحركات والشدّة والهمزة. ونعرض حلاُ بسيطاً فعالاً وأنيقاُ يتعرَّف على كلمات غير مشكلة أو مشكلة جزئياً أو كلياً وإعادة الحركات لكلٍ منها في برنامج للتحليل الصرفي.
Vowels in Arabic are optional orthographic symbols written as diacritics above or below letters. In Arabic texts, typically more than 97 percent of written words do not explicitly show any of the vowels they contain; that is to say, depending on the author, genre and field, less than 3 percent of words include any explicit vowel. Although numerous studies have been published on the issue of restoring the omitted vowels in speech technologies, little attention has been given to this problem in papers dedicated to written Arabic technologies.

In this research, we present Arabic-Unitex, an Arabic Language Resource, with emphasis on vowel representation and encoding. Specifically, we present two dozens of rules formalizing a detailed description of vowel omission in written text. They are typographical rules integrated into large-coverage resources for morphological annotation. For restoring vowels, our resources are capable of identifying words in which the vowels are not shown, as well as words in which the vowels are partially or fully included. By taking into account these rules, our resources are able to compute and restore for each word form a list of compatible fully vowelized candidates through omission-tolerant dictionary lookup.

Our program performs the analysis of 5000 words/second for running text (20 pages/second). Based on these comprehensive linguistic resources, we created a spell checker that detects any invalid/misplaced vowel in a fully or partially vowelized form. Finally, our resources provide a lexical coverage of more than 99 percent of the words used in popular newspapers, and restore vowels in words (out of context) simply and efficiently.
Fichier principal
Vignette du fichier
Restoring Arabic vowels-final.pdf (1.98 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02113751 , version 1 (09-05-2019)

Identifiants

Citer

Alexis Amid Neme, Sébastien Paumier. Restoring Arabic vowels through omission-tolerant dictionary lookup. Language Resources and Evaluation, 2020, 54, pp.487-551. ⟨10.1007/s10579-019-09464-6⟩. ⟨hal-02113751⟩
1316 Consultations
457 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More