The use of prosodic parameters in automatic speech recognition - Archive ouverte HAL Accéder directement au contenu
Chapitre D'ouvrage Année : 1988

The use of prosodic parameters in automatic speech recognition

Résumé

The present communication concerns the use of prosodic parameters in automatic speech recognition (ASR), i.e. the feasibility of automatically extracting prosodic information from a set of acoustic measurements done on the signal, and the incidence of integrating such information on the performance of ASR. Prosodic parameters include pauses and contrasts in pitch, duration and intensity between successive segments (mainly the vocalic parts). This notion is also extended to number of syllables and to ratios of voiced to unvoiced portions of the words. Part one introduces the various aspects of prosody (linguistic and non linguistic) and the main problems to be solved in automatically extracting linguistic messages conveyed by prosodic features. Part two deals with word level and lexical search: it presents work done (1) on the feasibility of word stress detection (primary stress, estimation of its magnitude, and evaluation of the complete word stress pattern) and (2) on the estimation of the amount of lexical constraints imposed by stress information in lexical search, completed by other suprasegmental information (number of syllables, word boundaries, ratios between voiced and unvoiced portion in the word, etc.). Part three deals with phrase and sentence levels and syntactic constraints provided by the automatic detection of word, phrase and sentence boundaries. Part four relates a number of miscellaneous uses at the phonemic level: phonetic segmentation, identification of the voicing feature of consonants, and estimation of the "segmenta1 quality of the underlying segments.
La présente communication concerne l'utilisation des paramètres prosodiques en reconnaissance automatique de la parole (RAP), c'est-à-dire la possibilité d'extraire automatiquement des informations prosodiques à partir d'un ensemble de mesures faites sur le signal, et l'incidence de l'intégration d'une telle information sur les performances de la RAP. Les paramètres prosodiques incluent les pauses, et les contrastes de fréquence du fondamental, de la durée et d'intensité entre les segments successifs (principalement les segments vocaliques). La notion s'étend également au nombre de syllabes et au rapport entre segments voisés et non voisés dans le mot. La première partie introduit les différents aspects de la prosodie (linguistiques et non linguistiques) et les problèmes principaux à résoudre pour extraire automatiquement les informations linguistiques contenues dans la prosodie. La seconde partie traite du niveau lexical et de la recherche lexicale. Elle présente des travaux faits (1) sur la possibilité de détection les accents lexicaux des mots (accent primaire, estimation de son amplitude, et évaluation du patron complet d'accentuation du mot, et (2) sur l'estimation de l'ampleur des contraintes lexicales imposées par la connaissance de la position de la syllabe lexicalement accentuée, complétée par d'autres informations suprasegmentales (nombre de syllabes, frontières du mot, rapport entre parties voisées et non voisées du mot, etc.) La troisième partie traite des niveaux du syntagme et de la phrase, et des contraintes syntaxiques apportées par la détection des frontières de mots, de syntagmes et de phrases. La quatrième partie concerne le niveau phonémique : la segmentation en phonèmes, identification du voisement des consonnes, et l'estimation de la qualité segmentale des segments sous-jacents.
Fichier principal
Vignette du fichier
vaissiere_1988_the_use_of_prosodic_parameters.pdf (4.07 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

halshs-00363982 , version 1 (24-02-2009)

Identifiants

  • HAL Id : halshs-00363982 , version 1

Citer

Jacqueline Vaissière. The use of prosodic parameters in automatic speech recognition. H. Niemann & al. Recent advances in speech understanding and dialog systems, Springer Verlag, pp.71-99, 1988, NATO ASI Series. ⟨halshs-00363982⟩
137 Consultations
242 Téléchargements

Partager

Gmail Facebook X LinkedIn More