Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard

Delphine Bernhard
Amalia Todirascu
Fanny Martin
Pascale Erhart
Lucie Steiblé

Résumé

La tokénisation est une étape essentielle dans tout système de traitement automatique des langues, d’autant plus que de nombreux outils dépendent du découpage obtenu. La tâche est particulièrement ardue pour les textes qui ne respectent pas les conventions orthotypographiques ou les langues pour lesquelles ces conventions ne sont pas stabilisées. Nous nous intéressons ici aux cas de deux langues régionales de France, l’alsacien et le picard. Nous présentons les défis posés par ces deux langues, et proposons des critères de découpage implémentés dans des tokéniseurs.
Fichier principal
Vignette du fichier
tokenisation.pdf (109.88 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01539160 , version 1 (20-06-2018)

Identifiants

  • HAL Id : hal-01539160 , version 1

Citer

Delphine Bernhard, Amalia Todirascu, Fanny Martin, Pascale Erhart, Lucie Steiblé, et al.. Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard. DiLiTAL 2017, Jun 2017, Orléans, France. pp.14-23. ⟨hal-01539160⟩
223 Consultations
466 Téléchargements

Partager

Gmail Facebook X LinkedIn More