Segmentation thématique : apport de la vectorisation

Vincent Claveau 1 Sébastien Lefèvre 2
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Dans cet article, nous nous intéressons à la segmentation thématique d'émissions télé- visées à partir de la transcription automatique de leur bande-son. La segmentation thématique de textes a fait l'objet de travaux depuis de nombreuses années, et les techniques mises en œuvre reposent souvent sur des descriptions de contenu et des calculs de similarité utilisés en recherche d'information. Dans cet article, nous proposons une technique s'inspirant des tra- vaux de morphologie mathématique utilisés en segmentation d'image. Nous montrons de plus que la technique d'appariement par vectorisation proposée par (Claveau et al., 2010) peut être utilisée dans l'étape clef de calcul de similarité entre les segments. Nous évaluons cette approche sur deux corpus d'émissions de télévision. Les résultats obtenus au travers de ces ex- périences dépassent nettement ceux des approches existantes et montrent le bien-fondé de notre démarche. RÉSUMÉ. This paper deals with topic segmentation of TV broadcasts using their transcription obtained by automatic speech recognition. Topic segmentation has been studied for several years, and most often the techniques proposed rely on information retrieval techniques to com- pute similarities between segments. In this paper, we propose a new segmentation approach inspired by mathematical morphology studies developed in the framework of image segmenta- tion. We also show that using the similarity technique called vectorization and first developed for IR (Claveau et al., 2010) can be efficiently used in this context. This new topic segmentation technique is evaluated on two corpora of TV broadcasts on which it outperforms other existing approaches.
Type de document :
Communication dans un congrès
Conférence en recherche d'information et applications, 2011, France. 2011
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-00643688
Contributeur : Vincent Claveau <>
Soumis le : mardi 22 novembre 2011 - 15:41:45
Dernière modification le : vendredi 13 janvier 2017 - 14:21:30

Identifiants

  • HAL Id : hal-00643688, version 1

Collections

Citation

Vincent Claveau, Sébastien Lefèvre. Segmentation thématique : apport de la vectorisation. Conférence en recherche d'information et applications, 2011, France. 2011. <hal-00643688>

Partager

Métriques

Consultations de la notice

177