An Arabic language resource for computational morphology based on the Semitic model - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2020

An Arabic language resource for computational morphology based on the Semitic model

Une ressource sur la langue arabe pour la morphologie computationnelle basée sur le modèle sémitique

Alexis Neme

Résumé

A natural path for Arabic morphology consists in adopting or adapting both the traditional Semitic model and finite-state technologies. On the one hand, we have to facilitate the linguist’s task of lexical encoding by proposing a familiar formalism: the Semitic model for morphology. On the other hand, computer scientists, in general, point to FSTs as standard devices for inflection; and FSTs have shown their simplicity and efficiency in inflectional morphology for European languages. Nevertheless, there are countless complexities in the implementation of this model with such a technique. This is due to the richness of Arabic morphology and to the actual details of the traditional root-and-pattern model. In fact, there is an opposition between the requirement to be faithful to the essence of the Semitic model, for the sake of lexicon encoders, and the necessity to curb the complexity of its traditional version. Yet, no trade-off has been found. Indeed, we have achieved and created from scratch a lexical resource containing 76,000 lemmatized entries, fully vowelized and manually encoded for inflectional morphology, representing more than 6 million inflected forms based on Semitic morphology and using finite-state technologies. Our resources are comprehensive, straightforward, accurate, and easy to update for a native linguist. They provide a significant advantage for data-driven or rule-based applications. For example, usual utilities for pattern matching typically apply regular expressions on texts; our resource offers more facilities, making it possible to describe large classes of forms using simple patterns: for instance, the lexical entry of a particular adjective may locate all its variations, 54 forms partially or fully vowelized, or only the feminine plural ones, for instance.
Une stratégie naturelle pour la morphologie arabe consiste à adopter ou adapter à la fois le modèle sémitique traditionnel et les technologies à états finis. D’une part, nous devons faciliter la tâche de codage lexical par les linguistes en leur proposant un formalisme qui leur est familier : le modèle sémitique de la morphologie. D'un autre côté, les informaticiens, en général, désignent les transducteurs comme le dispositif de flexion le plus courant ; et les transducteurs ont fait la preuve de leur simplicité et de leur efficacité pour la morphologie flexionnelle des langues européennes. Néanmoins, il existe d'innombrables écueils dans la mise en œuvre de ce modèle avec cette technique. Cela est lié à la richesse de la morphologie arabe et aux détails effectifs du modèle traditionnel de la racine et du schème. En fait, il existe un antagonisme entre l'exigence de fidélité à l'essence du modèle sémitique, dans l'intérêt des codeurs de lexiques, et la nécessité de limiter la complexité de sa version traditionnelle. Et aucun compromis n'avait encore été trouvé. Nous avons réalisé et créé de toutes pièces une ressource lexicale contenant 76 000 entrées lemmatisées, entièrement voyellées, codées manuellement en ce qui concerne la morphologie flexionnelle, représentant plus de 6 millions de formes fléchies, basées sur la morphologie sémitique et utilisant des technologies à nombre d'états fini. Nos ressources sont complètes, simples, précises et faciles à mettre à jour pour un linguiste natif. Ils offrent un avantage significatif pour les applications basées sur des corpus ou sur des règles. Par exemple, les outils habituels de reconnaissance de motifs appliquent généralement des expressions régulières à des textes ; notre ressource offre plus de simplicité et de souplesse, permettant de décrire de grandes classes de formes en utilisant des modèles simples : par exemple, l'entrée lexicale d'un adjectif particulier peut localiser toutes ses variations, 54 formes partiellement ou entièrement voyellées, ou seulement celles au féminin pluriel, par exemple.
Fichier principal
Vignette du fichier
Neme-2020.pdf (5.1 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-03038856 , version 1 (22-07-2020)
tel-03038856 , version 2 (03-12-2020)

Identifiants

  • HAL Id : tel-03038856 , version 1

Citer

Alexis Neme. An Arabic language resource for computational morphology based on the Semitic model. Computation and Language [cs.CL]. Université Paris-Est, 2020. English. ⟨NNT : ⟩. ⟨tel-03038856v1⟩
414 Consultations
713 Téléchargements

Partager

Gmail Facebook X LinkedIn More