Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases

Résumé : Nous décrivons le problème de la segmentation de courriels représen-tant des conversations, c'est-à-dire contenant des courriels cités. Nous présen-tons un outil, SegDoc, conçu pour segmenter de telles conversations en courriels individuels, puis en extraire les phrases. La méthode consiste à repérer les en-têtes générés par les outils de messagerie, qui marquent les frontières entre les messages. Nous décrivons les difficultés liées au repérage de ces en-têtes, dont la forme et les langues présentent une variété considérable. Une solution fon-dée sur des heuristiques indépendantes de la langue est proposée et évaluée. La tâche de segmentation en phrases est également décrite et évaluée. SegDoc pro-duit une sortie XML contenant la conversation ainsi segmentée et préparée pour des traitements automatiques subséquents.
Complete list of metadatas

Cited literature [7 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02056216
Contributor : Valérie Bellynck <>
Submitted on : Monday, March 4, 2019 - 2:43:42 PM
Last modification on : Tuesday, April 2, 2019 - 1:47:27 AM
Long-term archiving on : Wednesday, June 5, 2019 - 2:41:09 PM

File

FDCaEGC2017_Article5_vF.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02056216, version 1

Collections

Citation

Ruslan Kalitvianski, Valérie Bellynck, Christian Boitet. Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases. FDC@EGC-2017, Jan 2017, Grenoble, France. ⟨hal-02056216⟩

Share

Metrics

Record views

9

Files downloads

18