Skip to Main content Skip to Navigation
Conference papers

TArC : Incrementally and Semi-Automatically Collecting a Tunisian arabish Corpus

Résumé : Cet article décrit la procédure de constitution du premier corpus d’arabish tunisien (TArC) annoté avec des informations morpho-syntaxiques. L’arabish est la transcription spontanée des dialectes arabes en caractères latins et arythmographies, c’est à dire avec des chiffres utilisées comme lettres. Ce système d’encodage a été développé par les utilisateurs arabes des réseaux sociaux afin de faciliter l’écriture dans les communications informelles. L’arabish diffère pour chaque dialecte arabe et il est sous-doté en termes de ressources, de la même façon que la plupart des dialectes arabes. Dans les dernières années, l’attention des travaux de recherche en TAL sur les dialectes arabes est augmentée de façon remarquable. En prenant ceci en compte, TArC serait un support utile pour plusieurs types d’analyses, computationnelles ainsi que linguistiques, et pour l’apprentissage d’outils informatiques. Nous décrivons le travail fait pour mettre en place une procédure d’acquisition semi-automatiquedu corpus TArC, ainsi que certaines analyses faites sur les données collectées. Afin de montrer les difficultés rencontrées pendant la procédure de constitution du corpus, nous présentons également les caractéristiques principales du dialecte tunisien, ainsi que sa transcription en arabish.
Document type :
Conference papers
Complete list of metadatas

Cited literature [28 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02784772
Contributor : Sylvain Pogodalla <>
Submitted on : Tuesday, June 23, 2020 - 11:57:10 AM
Last modification on : Thursday, July 9, 2020 - 9:44:22 AM

File

133.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-02784772, version 3

Citation

Elisa Gugliotta, Marco Dinarelli. TArC : Incrementally and Semi-Automatically Collecting a Tunisian arabish Corpus. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles, Jun 2020, Nancy, France. pp.232-240. ⟨hal-02784772v3⟩

Share

Metrics

Record views

16

Files downloads

7