Segmentation et Regroupement en Locuteurs d'une collection de documents audio

Résumé : Nous proposons d'étudier la segmentation et le regroupement en locuteurs dans le cadre du traite-ment d'une collection de documents audio. L'objectif est de détecter les locuteurs qui apparaissent dans plusieurs émissions. Dans notre approche, les émissions sont traitées indépendamment les unes des autres avant d'être traitées globalement, afin de regrouper les locuteurs intervenant dans plusieurs émissions. Deux méthodes de regroupement sont étudiées pour le traitement global de la collection : l'une utilise la métrique NCLR et l'autre s'inspire des techniques à base de i-vecteurs, employées en vérification du locuteur, et est exprimé sous la forme d'un problème de PLNE. Ces deux méthodes ont été évaluées sur deux corpus de 15 émissions issues d'ESTER 2. La méthode basée sur l'utilisation des i-vecteurs réalise des performances légèrement inférieures à celles obtenues par la méthode NCLR, cependant le temps de calcul est en moyenne 17 fois plus rapide. Cette méthode est, par conséquent, adaptée au traitement de grandes quantités de données. ABSTRACT Cross-show speaker diarization We propose to study speaker diarization from a collection of audio documents. The goal is to detect speakers appearing in several shows. In our approach, shows are processed independently of each other before being processed collectively, to group speakers involved in several shows. Two clustering methods are studied for the overall treatment of the collection: one uses the NCLR metric and the other is inspired by techniques based on i-vectors, used in the speaker verification field, and is expressed as an ILP problem. Both methods were evaluated on two sets of 15 shows from ESTER 2. The method based on i-vectors achieves performance slightly lower than those obtained by the NCLR method, however, the computation time is on average 17 times faster. Therefore, this method is suitable for processing large volumes of data. MOTS-CLÉS : SRL, traitement de collection, i-vecteurs, regroupement PLNE.
Type de document :
Communication dans un congrès
29e Journées d’Études sur la Parole (JEP'12), 2012, Grenoble, France. 1, pp.433 - 440, 2012
Liste complète des métadonnées

Littérature citée [8 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01450722
Contributeur : Hakim Amokrane <>
Soumis le : lundi 3 avril 2017 - 21:54:37
Dernière modification le : jeudi 6 avril 2017 - 10:00:42
Document(s) archivé(s) le : mardi 4 juillet 2017 - 14:56:14

Fichier

F12-1055.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01450722, version 1

Collections

Citation

Grégor Dupuy, Mickael Rouvier, Sylvain Meignier, Yannick Estève. Segmentation et Regroupement en Locuteurs d'une collection de documents audio. 29e Journées d’Études sur la Parole (JEP'12), 2012, Grenoble, France. 1, pp.433 - 440, 2012. 〈hal-01450722〉

Partager

Métriques

Consultations de la notice

166

Téléchargements de fichiers

63