Segmentation de textes arabes en unités discursives minimales - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Segmentation de textes arabes en unités discursives minimales

Résumé

La segmentation d'un texte en Unités Discursives Minimales (UDM) a pour but de découper le texte en segments qui ne se chevauchent pas. Ces segments sont ensuite reliés entre eux afin de construire la structure discursive d'un texte. La plupart des approches existantes utilisent une analyse syntaxique extensive. Malheureusement, certaines langues ne disposent pas d'analyseur syntaxique robuste. Dans cet article, nous étudions la faisabilité de la segmentation discursive de textes arabes en nous basant sur une approche d'apprentissage supervisée qui prédit les UDM et les UDM imbriqués. La performance de notre segmentation a été évaluée sur deux genres de corpus: des textes de livres de l'enseignement secondaire et des textes du corpus Arabic Treebank. Nous montrons que la combinaison de traits typographiques, morphologiques et lexicaux permet une bonne reconnaissance des bornes de segments. De plus, nous montrons que l'ajout de traits syntaxiques n'améliore pas les performances de notre segmentation.
Fichier principal
Vignette du fichier
Keskes_12993.pdf (1.23 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03669139 , version 1 (16-05-2022)

Identifiants

  • HAL Id : hal-03669139 , version 1
  • OATAO : 12993

Citer

Iskandar Keskes, Farah Benamara, Lamia Hadrich Belguith. Segmentation de textes arabes en unités discursives minimales. 20ème Conférence du Traitement Automatique des Langues Naturelles (TALN'2013), Jun 2013, Sables d'Olonne, France. pp.435-449. ⟨hal-03669139⟩
21 Consultations
45 Téléchargements

Partager

Gmail Facebook X LinkedIn More