Détection automatique de phrases en domaine de spécialité en français - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Sentence boundary detection for specialized domains in French

Détection automatique de phrases en domaine de spécialité en français

Résumé

La détection de frontières de phrase est généralement considéré comme un problème résolu. Cependant, les outils performant sur des textes en domaine général, ne le sont pas forcement sur des domaines spécialisés, ce qui peut engendrer des dégradations de performance des outils intervenant en aval dans une chaîne de traitement automatique s’appuyant sur des textes découpés en phrases. Dans cet article, nous évaluons 5 outils de segmentation en phrase sur 3 corpus issus de différent domaines. Nous ré-entrainerons l’un de ces outils sur un corpus de spécialité pour étudier l’adaptation en domaine. Notamment, nous utilisons un nouveau corpus biomédical annoté spécifiquement pour cette tâche. La detection de frontières de phrase à l’aide d’un modèle OpenNLP entraîné sur un corpus clinique offre une F-mesure de .73, contre .66 pour la version standard de l’outil.
Sentence boundary detection is generally considered as a solved problem. However, tools that perform well on standard text do not necessarily deal well with specialized corpus, which may degrade the analysis of other natural language processing tools intended to process sentence-segmented text. In this paper, we conduct a benchmark evaluation of 5 standard sentence boundary detection tools on 3 corpora covering different domains and subdomains. We then retrain one of the tools on domain-specific data and show that this leads to improved performance. In particular, we experiment with the clinical domain using a new clinical corpus annotated for gold-standard sentence boundaries. Sentence boundary detection with an openNLP model trained on the clinical data achieves an F-measure of .73, vs. .66 for standard openNLP distribution. MOTS-CLÉS : Segmentation en phrases, domaine de spécialité, évaluation.
Fichier principal
Vignette du fichier
BoyerTALN2018_final.pdf (99.99 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01836480 , version 1 (16-07-2018)

Identifiants

  • HAL Id : hal-01836480 , version 1

Citer

Arthur Boyer, Aurélie Névéol. Détection automatique de phrases en domaine de spécialité en français. Conférence sur le Traitement Automatique des Langues Naturelles, May 2018, Rennes, France. ⟨hal-01836480⟩
171 Consultations
891 Téléchargements

Partager

Gmail Facebook X LinkedIn More