Reconnaissance du locuteur : robustesse face à la variabilité canal - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Annales de l'ISUP Année : 2012

Reconnaissance du locuteur : robustesse face à la variabilité canal

Résumé

Audio pattern classification includes a number of tasks, such as speaker recognition, language recognition, emotion recognition, speech recognition, etc. The feature being used in ail these tasks is generally based on a short-term cepstral representation. The cepstral vectors contain at the same time useful information and session variability, which are difficult to separate in this domain. Recently, in the context of GMM-based recognizers, a novel approach using a Factor Analysis paradigm has been proposed for decomposing the target model into a useful information component and a session variability component. In previous work, we successfully apply this paradigm to three automatic audio Processing applications, speaker verification, language recognition, and video genre recognition. In this paper we will focus on speaker recognition, We will show that this approach allows for a relative error reduction of over 50%.
La classification des formes dans le cadre vocal inclut plusieurs applications, telles que la reconnaissance du locuteur, la reconnaissance de la langue, la reconnaissance des émotions, la reconnaissance de la parole, etc. L’information acoustique utilisée dans ces domaines est généralement basée sur la représentation cepstrale * à court terme. Les vecteurs cepstraux contiennent non seulement l’information utile pour la reconnaissance, mais aussi d’autres types d’informations, telle que la variabilité session. Ces différents types d’informations sont difficilement séparables dans le domaine des vecteurs cepstraux. Récemment, dans le contexte des systèmes de reconnaissance fondés sur les GMM (mélange de gaussiennes), une nouvelle approche utilisant l’Analyse Factorielle a été proposée pour décomposer le modèle d’une forme donnée, en deux composantes : l’information utile et la variabilité session. Dans des travaux précédents nous avons appliqué ce paradigme avec succès à trois applications, la reconnaissance du locuteur, la reconnaissance de la langue et la reconnaissance du genre vidéo. Dans cet article nous allons expliquer les fondements de ce nouveau paradigme, les résultats expérimentaux porteront sur la reconnaissance du locuteur. Nous allons montrer qu’avec cette approche une amélioration supérieure à 50% est observée.
Fichier principal
Vignette du fichier
Pages de (2011-2014)-14.pdf (3.49 Mo) Télécharger le fichier
Origine : Accord explicite pour ce dépôt

Dates et versions

hal-03615433 , version 1 (21-03-2022)

Identifiants

  • HAL Id : hal-03615433 , version 1

Citer

Driss Matrouf. Reconnaissance du locuteur : robustesse face à la variabilité canal. Annales de l'ISUP, 2012, 56 (2-3), pp.87-98. ⟨hal-03615433⟩

Collections

ANNALES-ISUP
22 Consultations
8 Téléchargements

Partager

Gmail Facebook X LinkedIn More