Un étiqueteur de rôles grammaticaux libre pour le français intégré à Apache UIMA
Abstract
L'étiquetage des rôles grammaticaux est une tâche de pré-traitement récurrente. Pour le français, deux outils sont majoritairement utilisés : TreeTagger et Brill. Nous proposons une démarche, ne nécessitant aucune ressource, pour la création d'un modèle de Markov caché (HMM) pour palier les problèmes de ces outils, et de licences notamment. Nous distribuons librement toutes les ressources liées à ce travail.
Fichier principal
article-taln-2010.pdf (75.57 Ko)
Télécharger le fichier
article-taln2010.tar.bz2 (86.82 Mo)
Télécharger le fichier
Origin : Publisher files allowed on an open archive
Format : Other
Loading...