Reconnaissance du locuteur : robustesse face à la variabilité canal

Driss Matrouf

Article Dans Une Revue Annales de l'ISUP Année : 2012

Reconnaissance du locuteur : robustesse face à la variabilité canal

(1)

Driss Matrouf

Fonction : Auteur
PersonId : 176307
IdHAL : driss-matrouf
IdRef : 137773439

Centre d'Enseignement et de Recherche en Informatique - CERI

Résumé

Audio pattern classification includes a number of tasks, such as speaker recognition, language recognition, emotion recognition, speech recognition, etc. The feature being used in ail these tasks is generally based on a short-term cepstral representation. The cepstral vectors contain at the same time useful information and session variability, which are difficult to separate in this domain. Recently, in the context of GMM-based recognizers, a novel approach using a Factor Analysis paradigm has been proposed for decomposing the target model into a useful information component and a session variability component. In previous work, we successfully apply this paradigm to three automatic audio Processing applications, speaker verification, language recognition, and video genre recognition. In this paper we will focus on speaker recognition, We will show that this approach allows for a relative error reduction of over 50%.

La classification des formes dans le cadre vocal inclut plusieurs applications, telles que la reconnaissance du locuteur, la reconnaissance de la langue, la reconnaissance des émotions, la reconnaissance de la parole, etc. L’information acoustique utilisée dans ces domaines est généralement basée sur la représentation cepstrale * à court terme. Les vecteurs cepstraux contiennent non seulement l’information utile pour la reconnaissance, mais aussi d’autres types d’informations, telle que la variabilité session. Ces différents types d’informations sont difficilement séparables dans le domaine des vecteurs cepstraux. Récemment, dans le contexte des systèmes de reconnaissance fondés sur les GMM (mélange de gaussiennes), une nouvelle approche utilisant l’Analyse Factorielle a été proposée pour décomposer le modèle d’une forme donnée, en deux composantes : l’information utile et la variabilité session. Dans des travaux précédents nous avons appliqué ce paradigme avec succès à trois applications, la reconnaissance du locuteur, la reconnaissance de la langue et la reconnaissance du genre vidéo. Dans cet article nous allons expliquer les fondements de ce nouveau paradigme, les résultats expérimentaux porteront sur la reconnaissance du locuteur. Nous allons montrer qu’avec cette approche une amélioration supérieure à 50% est observée.

Mots clés

Vaxaibilité session Reconnaissance du locuteur GMM-UBM Analyse Factorielle

Domaines

Statistiques [math.ST]

Fichier principal

Pages de (2011-2014)-14.pdf (3.49 Mo)

Origine : Accord explicite pour ce dépôt

Gestionnaire HAL 3 Sorbonne Université : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03615433

Soumis le : lundi 21 mars 2022-15:06:31

Dernière modification le : lundi 8 avril 2024-14:26:19

Dates et versions

hal-03615433 , version 1 (21-03-2022)

Identifiants

HAL Id : hal-03615433 , version 1

Citer

Driss Matrouf. Reconnaissance du locuteur : robustesse face à la variabilité canal. Annales de l'ISUP, 2012, 56 (2-3), pp.87-98. ⟨hal-03615433⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ANNALES-ISUP

22 Consultations

8 Téléchargements

Reconnaissance du locuteur : robustesse face à la variabilité canal

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager