Exploration de paramètres acoustiques dérivés de GMMs pour l’adaptation non supervisée de modèles acoustiques à base de réseaux de neurones profonds

Résumé : L'étude présentée dans cet article améliore une méthode récemment proposée pour l'adaptation de modèles acoustiques markoviens couplés à un réseau de neurones profond (DNN-HMM). Cette méthode d'adaptation utilise des paramètres acoustiques dérivés de Mixtures de Modèles Gaussiens (GMM-derived features, GMMD). L'amélioration provient de l'emploi de scores et de mesures de confiance calculés à partir de graphes construits dans le cadre d'un algorithme d'adaptation conventionnel dit de maximum a posteriori (MAP). Une version modifiée de l'adaptation MAP est appliquée sur le modèle GMM auxiliaire utilisé dans une procédure d'apprentissage adaptatif au locuteur (speaker adaptative training, SAT) lors de l'apprentissage du DNN. Des expériences menées sur le corpus Wall Street Journal (WSJ0) montrent que la technique d'adaptation non supervisée proposée dans cet article permet une réduction relative de 8,4% du taux d'erreurs sur les mots (WER), par rapport aux résultats obtenus avec des modèles DNN-HMM indépendants du locuteur utilisant des paramètres acoustiques plus conventionnels. ABSTRACT Exploring GMM-derived features for unsupervised adaptation of deep neural network acoustic models In this paper we investigate GMM-derived features recently introduced for adaptation of context-dependent deep neural network HMM (CD-DNN-HMM) acoustic models. We present an initial attempt of improving of the previously proposed adaptation algorithm by applying lattices scores and by using confidence measures in the traditional maximum a posteriori adaptation (MAP) adaptation algorithm. Modified MAP adaptation is performed for the auxiliary GMM model used in a speaker adaptive training (SAT) procedure for a DNN. Experimental results on the Wall Street Journal (WSJ0) corpus show that the proposed adaptation technique can provide, on average, a 8.4% relative word error rate (WER) reduction under an unsupervised adaptation setup, compared to speaker independent DNN-HMM systems built on conventional features.
Type de document :
Communication dans un congrès
Journées d’Études sur la Parole (JEP'16), 2016, Paris, France. AFCP, 2016
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01456899
Contributeur : Hakim Amokrane <>
Soumis le : lundi 19 novembre 2018 - 10:14:50
Dernière modification le : vendredi 30 novembre 2018 - 15:27:00

Fichier

JEP_2016_paper_33.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01456899, version 1

Collections

Citation

Natalia Tomashenko, Yuri Khokhlov, Anthony Larcher, Yannick Estève. Exploration de paramètres acoustiques dérivés de GMMs pour l’adaptation non supervisée de modèles acoustiques à base de réseaux de neurones profonds. Journées d’Études sur la Parole (JEP'16), 2016, Paris, France. AFCP, 2016. 〈hal-01456899〉

Partager

Métriques

Consultations de la notice

209

Téléchargements de fichiers

5