Détection automatique de phrases en domaine de spécialité en français

Abstract : La détection de frontières de phrase est généralement considéré comme un problème résolu. Cependant, les outils performant sur des textes en domaine général, ne le sont pas forcement sur des domaines spécialisés, ce qui peut engendrer des dégradations de performance des outils intervenant en aval dans une chaîne de traitement automatique s’appuyant sur des textes découpés en phrases. Dans cet article, nous évaluons 5 outils de segmentation en phrase sur 3 corpus issus de différent domaines. Nous ré-entrainerons l’un de ces outils sur un corpus de spécialité pour étudier l’adaptation en domaine. Notamment, nous utilisons un nouveau corpus biomédical annoté spécifiquement pour cette tâche. La detection de frontières de phrase à l’aide d’un modèle OpenNLP entraîné sur un corpus clinique offre une F-mesure de .73, contre .66 pour la version standard de l’outil.
Complete list of metadatas

Cited literature [23 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01836480
Contributor : Limsi Publications <>
Submitted on : Monday, July 16, 2018 - 11:23:55 AM
Last modification on : Friday, May 3, 2019 - 4:56:47 PM
Long-term archiving on : Wednesday, October 17, 2018 - 1:32:57 PM

File

BoyerTALN2018_final.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01836480, version 1

Citation

Arthur Boyer, Aurélie Névéol. Détection automatique de phrases en domaine de spécialité en français. Conférence sur le Traitement Automatique des Langues Naturelles, May 2018, Rennes, France. ⟨hal-01836480⟩

Share

Metrics

Record views

81

Files downloads

311