Autoapprentissage pour le regroupement en locuteurs : premières investigations

Résumé : Cet article traite de l'autoapprentissage d'un système i-vector/PLDA pour le regroupement en locuteurs de collections d'archives audiovisuelles françaises. Les paramètres d'extraction des i-vectors et du calcul des scores PLDA sont appris de façon non supervisée sur les données de la collection elle-même. Différents mélanges de données cibles et de données externes sont comparés pour la phase d'apprentissage. Les résultats expérimentaux sur deux corpora cibles distincts montrent que l'utilisation des données des corpora en question pour l'apprentissage itératif non supervisé et l'adaptation des paramètres de la PLDA peut améliorer un système existant, appris sur des données annotées externes. De tels résultats indiquent que la structuration automatique en locuteurs de petites collections non annotées ne devrait reposer que sur l'existence d'un corpus externe annoté, qui peutêtre peutˆpeutêtre spécifiquement adaptéadapté`adaptéà chaque collection cible. Nous montronségalementmontrons´montronségalement qu'une collection suffisamment grande peut se passer de l'utilisation de ce corpus externe. ABSTRACT First investigations on self trained speaker diarization This paper investigates self trained cross-show speaker diarization applied to collections of French TV archives, based on an i-vector/PLDA framework. The parameters used for i-vectors extraction and PLDA scoring are trained in a unsupervised way, using the data of the collection itself. Performances are compared, using combinations of target data and external data for training. The experimental results on two distinct target corpora show that using data from the corpora themselves to perform unsupervised iterative training and domain adaptation of PLDA parameters can improve an existing system, trained on external annotated data. Such results indicate that performing speaker indexation on small collections of unlabeled audio archives should only rely on the availability of a sufficient external corpus, which can be specifically adapted to every target collection. We show that a minimum collection size is required to exclude the use of such an external bootstrap.
Type de document :
Communication dans un congrès
Journées d’Études sur la Parole (JEP'16), 2016, Paris, France. AFCP, Actes de la conférence conjointe JEP-TALN-RECITAL 2016,, 2016
Liste complète des métadonnées

Littérature citée [18 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01451533
Contributeur : Hakim Amokrane <>
Soumis le : jeudi 30 mars 2017 - 22:41:31
Dernière modification le : mardi 19 juin 2018 - 11:50:04

Fichier

J74.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01451533, version 1

Collections

Citation

Gaël Le Lan, Sylvain Meignier, Delphine Charlet, Anthony Larcher. Autoapprentissage pour le regroupement en locuteurs : premières investigations. Journées d’Études sur la Parole (JEP'16), 2016, Paris, France. AFCP, Actes de la conférence conjointe JEP-TALN-RECITAL 2016,, 2016. 〈hal-01451533〉

Partager

Métriques

Consultations de la notice

121

Téléchargements de fichiers

20