Caractérisation de registres de langue par extraction de motifs séquentiels émergents - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Caractérisation de registres de langue par extraction de motifs séquentiels émergents

Résumé

Language registers are the highly perceptible characteristic of written or spoken communication. In this paper we present a methodology to automatically characterize language registers using statistical tool named "emerging sequential patterns". Our approach is presented in two steps : the first one exhibits the relevance of the chosen statistical tool from artificial texts ; the second one shows that the characteristic patterns of the language registers from real data can be extracted by using this statistical tool. Experimental results show the quality of our methodology.
Les registres de langue sont un trait saillant et très visible de la communication orale et écrite. Nous proposons dans cet article une méthodologie qui permet de caractériser automatiquement les registres de langues. Elle s’appuie sur un outil statistique particulier qui repose sur l’utilisation de motifs dits "séquentiels émergents". Les travaux que nous exposons ici présentent deux étapes : une première étape qui vérifie la pertinence de l’outil statistique choisi à partir de textes artificiels; une seconde étape qui applique cet outil à des données textuelles réelles. Les résultats expérimentaux à partir de données réelles sont encourageants étant donnée la qualité des motifs caractéristiques des registres de langue retournés.
Fichier principal
Vignette du fichier
2020_JADT_MEKKI.pdf (247.96 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03078450 , version 1 (16-12-2020)

Identifiants

  • HAL Id : hal-03078450 , version 1

Citer

Jade Mekki, Nicolas Béchet, Delphine Battistelli, Gwénolé Lecorvé. Caractérisation de registres de langue par extraction de motifs séquentiels émergents. JADT 2020 : 15èmes Journées Internationales d'Analyse statistique des Données Textuelles, Jun 2020, Toulouse, France. ⟨hal-03078450⟩
134 Consultations
797 Téléchargements

Partager

Gmail Facebook X LinkedIn More