Fusion de paramètres pour une classification automatique parole/musique robuste

This paper deals with a novel approach to speech/music segmentation. Three original features, entropy modulation, stationary segment duration and number of segments are extracted. They are merged with the classical 4Hz modulation energy. The relevance of these features is studied in a first experiment based on a development corpus composed of collected samples of speech and music. Another corpus is employed to verify the robustness of the algorithm. This experiment is made on radio corpus and shows performances reaching a correct identification rate of 90 %.

Dans cet article, une nouvelle approche relative à l'indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les composantes parole et musique. Trois nouveaux paramètres sont extraits : la modulation de l'entropie, la durée des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l'énergie à 4 Hz. Une première expérience, effectuée sur un corpus de parole lue et de diverses sortes de musique, permet de montrer l'intérêt de chacun des paramètres par sa distribution. Ensuite, un deuxième corpus est utilisé afin de vérifier la robustesse des paramètres et du système de fusion proposé. Cette expérience, réalisée sur un corpus radiophonique, donne un taux d'identification correcte supérieur à 90 %.

Mots clés

classification merging audio documents acoustic parameters segmentation distribution duration entropy energy

classification fusion documents sonores paramètres acoustiques segmentation distribution durée entropie énergie

Domaines

Traitement du signal et de l'image [eess.SP]

Jean-Luc Rouas : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01695732

Soumis le : lundi 29 janvier 2018-16:40:53

Dernière modification le : lundi 20 novembre 2023-11:44:21

Dates et versions

hal-01695732 , version 1 (29-01-2018)

Identifiants

HAL Id : hal-01695732 , version 1
DOI : 10.3166/tsi.22.831-852

Citer

Julien Pinquier, Jean-Luc Rouas, Régine André-Obrecht. Fusion de paramètres pour une classification automatique parole/musique robuste. Revue des Sciences et Technologies de l'Information - Série TSI : Technique et Science Informatiques, 2003, Fusion numérique/symbolique, 22 (7-8), pp.831-852. ⟨10.3166/tsi.22.831-852⟩. ⟨hal-01695732⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS UT1-CAPITOLE IRIT IRIT-SAMOVA IRIT-SI IRIT-UT3 TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

159 Consultations

0 Téléchargements