Indices utiles à la cohésion lexicale pour la segmentation thématique de documents oraux - Archive ouverte HAL Access content directly
Conference Papers Year : 2010

Indices utiles à la cohésion lexicale pour la segmentation thématique de documents oraux

Abstract

The increasing quantity of TV material requires methods to help users navigate such data streams. Topic segmentation of TV broadcast is a rst stage to structuring tasks. The goal of this article is to determine to what extent condence measures and semantics can compensate errors in automatic transcripts for topic segmentation. To this end, we introduce condence measure and semantic relations in a topic segmentation method. We show that our F1-measure is improved by +1.5 and +1.9 when integrating condence measure and semantic relations respectively. Such improvement demonstrates that simple clues can conteract errors in automatic transcripts for topic segmentation.
L'augmentation du nombre de documents télévisuels disponibles rend indispensable la mise en place de méthodes de structuration de ces flux, structuration nécessitant une phase préalable de segmentation thématique des émissions. Le but de cet article est de déterminer dans quelle mesure des mesures de confiance et des relations sémantiques peuvent compenser des erreurs de transcription automatique pour cette tâche de segmentation. À cette fin, nous introduisons les mesures de confiance et les relations sémantiques dans un algorithme de segmentation thématique et nous montrons que la valeur de la F1-mesure est améliorée de +1,5 et +1,9 lors de l'intégration des mesures de confiance et des relations sémantiques, respectivement. Cette amélioration démontre que de simples indices peuvent contrebalancer les erreurs de transcriptions et améliorer les performances de notre méthode de segmentation thématique.
Fichier principal
Vignette du fichier
guinaudeau_jep2010.pdf (100.19 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

inria-00533388 , version 1 (05-11-2010)

Identifiers

  • HAL Id : inria-00533388 , version 1

Cite

Camille Guinaudeau, Guillaume Gravier, Pascale Sébillot. Indices utiles à la cohésion lexicale pour la segmentation thématique de documents oraux. XXVIIIe journées d'études de la parole, May 2010, Mons, Belgique. ⟨inria-00533388⟩
212 View
168 Download

Share

Gmail Facebook X LinkedIn More