Reconnaissance Automatique des chiffres arabes en milieu réel par fusion audiovisuelle - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Reconnaissance Automatique des chiffres arabes en milieu réel par fusion audiovisuelle

Résumé

L'utilisation d'informations supplémentaires conjointement à celles extraites du signal acoustique est une nouvelle méthode utilisée afin d'améliorer les performances et la robustesse des systèmes de reconnaissance automatique de la parole. De nombreux travaux sur la perception de la parole ont montré l'importance des informations visuelles dans le processus de reconnaissance chez l'homme. L'utilisation de données sur la forme et le mouvement des lèvres du locuteur semble donc être une voie prometteuse pour la reconnaissance de la parole. Dans cet article, nous présentons un système de Reconnaissance Automatique de la Parole (RAP) combinant les données acoustiques et les données visuelles. Ce système de reconnaissance audiovisuelle utilise comme moteur de reconnaissance les modèles de Markov cachés continus (Continuous Hidden Markov Model, CHMM) et comme méthode de fusion l'identification Séparée (IS) basée sur les réseaux de neurones de type Perceptron Multi Couches (PMC). L'information visuelle utilisée conjointement avec les données acoustiques est basée sur la forme et les mouvements des lèvres lors de l'élocution. Les expériences réalisées pour la reconnaissance des chiffres arabes indiquent que l'utilisation conjointe de la modalité acoustique et de la modalité visuelle augmente la performance du système de RAP en milieu réel (fortement bruité), une augmentation du Taux ce Reconnaissance (TR) de l'ordre de 15% a été constatée.
Fichier principal
Vignette du fichier
000388.pdf (245.11 Ko) Télécharger le fichier
Origine : Accord explicite pour ce dépôt
Loading...

Dates et versions

hal-00546823 , version 1 (14-12-2010)

Identifiants

  • HAL Id : hal-00546823 , version 1

Citer

Nadia Bakir, Mohamed Debyeche, Youcef Chibani. Reconnaissance Automatique des chiffres arabes en milieu réel par fusion audiovisuelle. 10ème Congrès Français d'Acoustique, Apr 2010, Lyon, France. ⟨hal-00546823⟩
171 Consultations
344 Téléchargements

Partager

Gmail Facebook X LinkedIn More