Fusion de paramètres pour une classification automatique parole/musique robuste - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série TSI : Technique et Science Informatiques Année : 2003

Fusion de paramètres pour une classification automatique parole/musique robuste

Résumé

This paper deals with a novel approach to speech/music segmentation. Three original features, entropy modulation, stationary segment duration and number of segments are extracted. They are merged with the classical 4Hz modulation energy. The relevance of these features is studied in a first experiment based on a development corpus composed of collected samples of speech and music. Another corpus is employed to verify the robustness of the algorithm. This experiment is made on radio corpus and shows performances reaching a correct identification rate of 90 %.
Dans cet article, une nouvelle approche relative à l'indexation de la bande sonore de documents audiovisuels est proposée, son but est de détecter les composantes parole et musique. Trois nouveaux paramètres sont extraits : la modulation de l'entropie, la durée des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l'énergie à 4 Hz. Une première expérience, effectuée sur un corpus de parole lue et de diverses sortes de musique, permet de montrer l'intérêt de chacun des paramètres par sa distribution. Ensuite, un deuxième corpus est utilisé afin de vérifier la robustesse des paramètres et du système de fusion proposé. Cette expérience, réalisée sur un corpus radiophonique, donne un taux d'identification correcte supérieur à 90 %.

Dates et versions

hal-01695732 , version 1 (29-01-2018)

Identifiants

Citer

Julien Pinquier, Jean-Luc Rouas, Régine André-Obrecht. Fusion de paramètres pour une classification automatique parole/musique robuste. Revue des Sciences et Technologies de l'Information - Série TSI : Technique et Science Informatiques, 2003, Fusion numérique/symbolique, 22 (7-8), pp.831-852. ⟨10.3166/tsi.22.831-852⟩. ⟨hal-01695732⟩
157 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More