Étude des Techniques de Deep Learning en Reconnaissance Automatique du Locuteur - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2021

Study of Deep Learning Techniques in Automatic Speaker Recognition

Étude des Techniques de Deep Learning en Reconnaissance Automatique du Locuteur

Soufiane Hourri
  • Fonction : Auteur
  • PersonId : 1096937

Résumé

Speaker Recognition (SRE), sometimes referred to as speaker biometrics, involves the identification, verification (authentication), classification and, by extension, segmentation, tracking and detection of speakers. It is a generic term used for any procedure involving the recognition of a person's identity based on their voice. In this context, deep learning has attracted much more interest from speech processing researchers, and it has recently been introduced in SRE. In most cases, deep learning models are adapted from automatic speech recognition (ASR) applications and applied to SRE, and have shown their ability to compete with state-of-the-art approaches. Nevertheless, the use of deep learning in SRE is still linked to ASR. On the other hand, deep learning models are now considered state-of-the-art in many areas of pattern recognition. In SRE, several architectures have been studied, such as deep neural networks (DNNs), deep belief networks (DBNs), restricted Boltzmann machines (RBMs), etc., while convolutional neural networks (CNNs) are the most widely used models in image processing. The objective of this thesis is to study deep learning models for the SRE domain. For this reason, we proposed a new way to use DBNs and DNNs in SRE, with the aim to extract the deep speaker features (DeepSF). Subsequently, we proposed a new usage of CNNs for the SRE problem. Although they are particularly designed for image processing problems, CNNs have recently been applied to SRE using spectrograms as input images. We believe that this approach is not optimal because it can lead to two cumulative errors in solving image processing and SRE problems. This is why we have developed a new method that allows the use of CNNs without using images. The results of the thesis represent an important finding to understand how deep learning models can be adapted to the problem of speaker recognition.
La reconnaissance automatique du locuteur (RAL), parfois appelée biométrie du locuteur, implique l'identification, la vérification (authentification), la classification et, par extension, la segmentation, le suivi et la détection des locuteurs. Il s'agit d'un terme générique utilisé pour toute procédure impliquant la reconnaissance de l'identité d'une personne sur la base de sa voix. Dans ce contexte, le deep learning a suscité beaucoup plus d'intérêt de la part des chercheurs en traitement de la parole, et il a été introduit récemment dans la RAL. Dans la plupart des cas, les modèles de deep learning sont adaptés des applications de reconnaissance automatique de la parole (RAP) et appliqués à la RAL, et ils ont montré leur capacité à concurrencer les approches de l’état de l’art. Néanmoins, l'utilisation de deep learning dans la RAL est toujours liée à la RAP. D'autre part, les modèles de deep learning sont maintenant considérés comme état de l’art dans nombreux domaines de la reconnaissance des formes. En RAL, plusieurs architectures ont été étudiées, telles que les réseaux de neurones profonds (DNN), les réseaux de croyances profonds (DBN), les machines de Boltzmann restreintes (RBM), etc. tandis que les réseaux de neurones convolutifs (CNN) sont les modèles les plus utilisés en traitement d’images. L'objectif de cette thèse est d'étudier les modèles de deep learning pour le domaine de la RAL. Pour cette raison, nous avons proposé une nouvelle façon d'utiliser les DBN et les DNN dans la RAL, dans le but d'extraire les caractéristiques profondes du locuteur (DeepSF). Par la suite, nous avons proposé une nouvelle utilisation des CNN pour le problème de la RAL. Bien qu'ils soient particulièrement conçus pour les problèmes de traitement d’images, les CNN ont récemment été appliqués à la RAL en utilisant des spectrogrammes comme images d'entrée. Nous pensons que cette approche n'est pas optimale car elle peut entraîner deux erreurs cumulatives dans la résolution d'un problème de traitement d’images et de RAL. C'est pourquoi nous avons développé une nouvelle méthode qui permet d'utiliser les CNN sans utiliser d'images. Les résultats de la thèse représentent une découverte importante pour comprendre comment les modèles de deep learning peuvent être adaptés au problème de la RAL.
Fichier principal
Vignette du fichier
Thesis Soufiane Hourri.pdf (3.8 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03207614 , version 1 (26-04-2021)

Identifiants

  • HAL Id : tel-03207614 , version 1

Citer

Soufiane Hourri. Étude des Techniques de Deep Learning en Reconnaissance Automatique du Locuteur. Apprentissage [cs.LG]. Université Sidi Mohamed ben Abdellah Fès (Maroc), 2021. Français. ⟨NNT : ⟩. ⟨tel-03207614⟩
753 Consultations
1306 Téléchargements

Partager

Gmail Facebook X LinkedIn More