Segmentation et Regroupement en Locuteur pour le traitement incrémental des collections volumineuses

Résumé : Les systèmes de Segmentation et Regroupement en Locuteurs cross-show actuels reposent princi-palement sur un processus de regroupement global qui traite collectivement chaque émission d'une collection. Cette approche a déjà été étudiée dans diverses situations et semble être le meilleur moyen à ce jour pour atteindre des taux d'erreur satisfaisants, dans une durée de traitement raisonnable. Néanmoins, ce processus montre ses limites dans un contexte applicatif réaliste où de grandes et dynamiques collections doivent être traitées. Dans cet article, nous étudions l'utilisation d'un regroupement cross-show incrémental pour traiter de manière itérative des émissions devant être insérées dans une collection existante. Les nouvelles émissions à insérer sont traitées les unes après les autres, selon l'ordre chronologique de diffusion. Les expériences ont été menées sur les enregistrements LCP et BFMTV distribués au cours des campagnes d'éva-luation françaises ETAPE et REPERE. L'ensemble représente 67 heures de données annotées, réparties sur 310 enregistrements, couvrant une période d'environ deux ans (de septembre 2010 à octobre 2012). ABSTRACT Cross-show Speaker Diarization to Incrementally Process Large Volume of Data Current cross-show diarization systems are mainly based on an overall clustering process that handles collectively each show of a collection. This approach has already been studied in various situations and seems to be the best way so far to achieve low error rates. Nevertheless, that process shows its limits in a realistic applicative context where large and dynamically increasing collections have to be processed. In this paper we investigate the use of an incremental clustering cross-show speaker diarization architecture to iteratively process new shows within an existing collection. The new shows to be inserted are processed one after another, according to the chronological order of broadcasting. Experiments were conducted on the LCP and the BFMTV show recordings distributed among the ETAPE and the REPERE French evaluation campaigns. It represents 67 hours of annotated data, distributed among 310 shows, and covering a 2-years period (from Sept. 2010 to Oct. 2012). MOTS-CLÉS : SRL, architecture incrémentale, regroupement PLNE global, i-vecteurs.
Type de document :
Communication dans un congrès
30e Journées d’Études sur la Parole (JEP'14), 2014, Le Mans, France. 1, pp.433 - 440, 2012
Liste complète des métadonnées

Littérature citée [16 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01433245
Contributeur : Sylvain Meignier <>
Soumis le : vendredi 7 avril 2017 - 09:12:01
Dernière modification le : mardi 12 septembre 2017 - 12:08:49
Document(s) archivé(s) le : samedi 8 juillet 2017 - 12:27:47

Fichier

42.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01433245, version 1

Collections

Citation

Grégor Dupuy, Sylvain Meignier, Yannick Estève. Segmentation et Regroupement en Locuteur pour le traitement incrémental des collections volumineuses. 30e Journées d’Études sur la Parole (JEP'14), 2014, Le Mans, France. 1, pp.433 - 440, 2012. 〈hal-01433245〉

Partager

Métriques

Consultations de la notice

163

Téléchargements de fichiers

38