Construction semi-automatique d'une grammaire d'arbres adjoints pour l'analyse syntaxico-sémantique de l'arabe - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2019

Semi-automatic construction of a Tree-adjoining grammar for syntactic-semantic analysis of Arabic

Construction semi-automatique d'une grammaire d'arbres adjoints pour l'analyse syntaxico-sémantique de l'arabe

Résumé

This thesis deals with the formal description and development of an electronic grammar of Arabic language. This work is a prerequisite for the creation of automatic Arabic processing tools. This language presents many challenges for automatic processing. Indeed the order of words in Arabic is relatively free,the morphology is rich and the diacritics are omitted in written texts. Although several research studies have addressed some of these issues, electronic resources useful for the processing of Arabic remain relatively rare or not widely available. In this thesis work, we are interested in the representation of syntax (word order) and the meaning of modern standard Arabic. As a formal system of language representation, we chose the formalism of Tree Adjoining Grammar. Thus we proposed an electronic adjoint tree grammar of Arabic named"ArabTAGV2.0". This resource partially reuses the pre-existing modeling in the manually defined grammar "ArabTAG" and integrates it into an abstract representation called meta-grammar. The linguistic expert canthus describe the syntax and semantics of the language with abstraction tools facilitating the maintenance and extension of the grammar. The new described grammar has 1074 syntactical rules (not lexicalized) and27 semantic frameworks (predicative relations). This resource was evaluated by analyzing a corpus from excerpts of an Arabic textbook.
Cette thèse traite de la description formelle et du développement d’une grammaire électronique de la langue arabe. Ce travail est un prérequis à la création d’outils de traitement automatique de l’arabe.Cette langue présente de nombreux défis pour un traitement automatique. En effet l’ordre de mots en arabe est relativement libre, la morphologie y est riche et les diacritiques sont omis dans les textes écrits. Bien que plusieurs travaux de recherche aient abordé certaines de ces problématiques, les ressources électroniques utiles pour le traitement de l’arabe demeurent relativement rares ou encore peu disponibles. Dans ce travail de thèse, nous nous sommes intéressés à la représentation de la syntaxe (ordre des mots) et du sens de l’arabe standard moderne. Comme système formel de représentation de la langue, nous avons choisi le formalisme des grammaires d’arbres adjoints (Tree Adjoining Grammar). Nous avons ainsi proposé une grammaire d’arbres adjoints électronique de l’arabe nommée « ArabTAG V2.0 ». Cette ressource réutilise en partie la modélisation préexistante dans la grammaire définie manuellement «ArabTAG » et l’intègre à une représentation abstraite appelée méta-grammaire. L’expert linguiste peut ainsi décrire la syntaxe et sémantique de la langue avec des outils d’abstraction facilitant la maintenance et l’extension de la grammaire. La grammaire ainsi décrite compte 1074 règles syntaxiques (non lexicalisées) et 27 cadres sémantiques (relations prédicatives). Cette ressource a été évaluée en analysant un corpus issu d’extraits d’un manuel scolaire d’apprentissage de l’arabe.
Fichier principal
Vignette du fichier
cherifa-benkhelil_3923.pdf (4.36 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02988287 , version 1 (04-11-2020)

Identifiants

  • HAL Id : tel-02988287 , version 1

Citer

Cherifa Ben Khelil. Construction semi-automatique d'une grammaire d'arbres adjoints pour l'analyse syntaxico-sémantique de l'arabe. Autre [cs.OH]. Université d'Orléans; Université de la Manouba (Tunisie), 2019. Français. ⟨NNT : 2019ORLE2013⟩. ⟨tel-02988287⟩
149 Consultations
302 Téléchargements

Partager

Gmail Facebook X LinkedIn More