Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases

Résumé

Nous décrivons le problème de la segmentation de courriels représen-tant des conversations, c'est-à-dire contenant des courriels cités. Nous présen-tons un outil, SegDoc, conçu pour segmenter de telles conversations en courriels individuels, puis en extraire les phrases. La méthode consiste à repérer les en-têtes générés par les outils de messagerie, qui marquent les frontières entre les messages. Nous décrivons les difficultés liées au repérage de ces en-têtes, dont la forme et les langues présentent une variété considérable. Une solution fon-dée sur des heuristiques indépendantes de la langue est proposée et évaluée. La tâche de segmentation en phrases est également décrite et évaluée. SegDoc pro-duit une sortie XML contenant la conversation ainsi segmentée et préparée pour des traitements automatiques subséquents.
Fichier principal
Vignette du fichier
FDCaEGC2017_Article5_vF.pdf (119.69 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02056216 , version 1 (04-03-2019)

Identifiants

  • HAL Id : hal-02056216 , version 1

Citer

Ruslan Kalitvianski, Valérie Bellynck, Christian Boitet. Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases. FDC@EGC-2017, Jan 2017, Grenoble, France. ⟨hal-02056216⟩
46 Consultations
96 Téléchargements

Partager

Gmail Facebook X LinkedIn More