Reconnaissance globale et analytique dans SYMULDEPHO, un SYstème MULti-locuteurs de DEcodage acoustico-PHOnétique - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 1994

Reconnaissance globale et analytique dans SYMULDEPHO, un SYstème MULti-locuteurs de DEcodage acoustico-PHOnétique

Alain Ghio

Résumé

The topic of this study is automatic speech recognition and concerns more precisely speaker independent acoustic-phonetic decoding. The model that we present is roughly based on the human cognitive processing system: the speech signal excites several parallel distributed processes of decoding. All these processes are conceptually different and they consequently do not give the same output. The final decision is taken by an "intelligent" control process which studies all these responses. The global recognition process, which is a metric method, extracts acoutsic features using a P.L.P. algorithm (Perceptually based Linear Prediction). Then, the Data Time Warping method (DTW) allows us to spectrally compare stimuli to references. Partial results consist in a set of Consonant/ vowel groups. The analytic recognition process is based on phonetic knowledge. It uses networks which are oriented graphs with state transitions. They are supposed to model all allophones of a phoneme. Each network specialized for a precise phoneme is stimulated without distinction. If a path is found along the network, an output appears at the end and a phoneme candidate is proposed. For the moment, the general control process is not implemented.
Cette étude s'inscrit dans le cadre de la reconnaissance automatique de la parole et décrit un système multilocuteurs de décodage acoustico-phonétique. Le système que nous proposons s'inspire, dans ses grandes lignes, du traitement cognitif humain dans le sens où le stimulus de parole alimente non pas un, mais différents modules de décodage fonctionnant en parallèle. Ces modules, variant par leur conception, fournissent différentes réponses qu'un moteur d'inférence exploite afin de prendre une décision. Le module de reconnaissance globale, de type métrique, utilise la technique P.L.P. (Prédiction Linéaire sur un spectre Perceptif) comme méthode d'extraction de l'information acoustique et effectue une comparaison spectrale par alignement dynamique temporel (Data Time Warping) entre un stimulus et des références. Le résultat de cette analyse globale est un ensemble de couples Consonne/Voyelle. Le module de reconnaissance analytique par réseaux est basé sur les connaissances de l'expert phonéticien. Les réseaux, qui sont des graphes orientés à transitions d'états, sont construits de telle façon à modéliser toutes les variantes contextuelles d'un phonème. Chaque réseau, spécialisé pour un phonème, est stimulé à priori. La découverte d'un chemin dans le réseau provoque une sortie et entraîne ainsi une proposition de candidat pour la reconnaissance analytique. Le moteur d'inférence n'est pas fonctionnel à l'heure actuelle.
Fichier principal
Vignette du fichier
NancyActes94.pdf (3.11 Mo) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-01665197 , version 1 (15-12-2017)

Identifiants

  • HAL Id : hal-01665197 , version 1

Citer

Alain Ghio, Mario Rossi. Reconnaissance globale et analytique dans SYMULDEPHO, un SYstème MULti-locuteurs de DEcodage acoustico-PHOnétique. Colloque "Reconnaissance automatique de la parole", CRIN/INRIA, 1994, Nancy, France. 15p. ⟨hal-01665197⟩
94 Consultations
25 Téléchargements

Partager

Gmail Facebook X LinkedIn More