Acoustical Modeling for Speech Recognition: Long Units and Multi-Modeling

Ronaldo Messina

Résumé

The subject of this thesis is acoustic modeling for speech recognition. There are two main aspects: modeling using long-units (consonant groups, quasi-syllables, multi-phones) and multi-modeling (e.i. how to efficiently "build" a model for a given class of data?)Methods for speeding-up the learning of the models using fixed alignments have been studied, and also how to produce Gaussianmixture models without passing through splitting methods that are usually employed during mixture learning.There is a growing interest in modeling using units longer than phonemes, because they enable modeling long-term dependencies and also pronunciation variations within the given group of phonemes. Context-dependent long-units yielded modest gains with respect to phonemes. But when this modeling is employed to a specific application, long-units significantly outperformed phonemes.The idea behind multi-modeling is to have specific models for each different conditions, thus being more precise in each one. A condition-specific model is estimated with data chosen by a priori knowledge, for example a group of speakers (gender, age, accent), transmission channel (PSTN, GSM), a range of signal-to-noise ratios, or any other feature of the signal. Different model combination schemes specific to each class are evaluated, and also for different a priori sources of variation. Using gender and channel-dependent models, a significant improvement over models learned on the same data but without the use of the a priori knowledge. Combining models at acoustic level (Gaussian mixtures) gave the highest performance.

Le domaine de cette thèse est la modélisation acoustique pour la reconnaissance vocale. Deux aspects principaux sontabordés : la modélisation par unités longues (groupes consonantiques, quasi-syllabes, multi-phonèmes) et la multimodélisation (c a d. comment « construire » efficacement une modélisation par classe de données ?)Nous avons étudié aussi des méthodes pour accélérer l’apprentissage des modèles avec des alignements fixés, et aussicomment fabriquer des mélanges de Gaussiennes sans passer par les étapes de division usuellement utilisées pour construireles mélanges.Il y a un intérêt croissant pour la modélisation d’unités plus longues que les phonèmes parce qu’elles offrent la possibilité de modéliser des dépendances temporelles de longue durée et des variantes de prononciation au sein du groupe de phonèmesconsidéré. Les unités longues, au travers de la modélisation contextuelle des groupes de phonèmes, ont donné de gains légerspar rapport aux phonèmes. Lorsque les modèles sont adoptés à une application donnée, les unités longues sontsignificativement meilleures que les phonèmes.Avec la multi modélisation, l’idée est d’avoir des modèles spécialisés pour différentes conditions, et donc plus précis pourchaque condition considérée. Un modèle spécifique à chaque condition est estimé à parti des données sélectionnées enfonction des connaissances à priori, par exemple un groupe de locuteurs (sexe, âge, accent), un type de canal (RTC,GSM), unetranche de valeurs de rapport signal à bruit, ou autre aspect du signal. Différentes méthodes pour combiner les modèlesspécifiques à chaque classe sont comparées, et ce pour différents choix de connaissances à priori. Avec des modèlesdépendants du sexe du locuteur et du canal de communication, il a été possible d’améliorer les performances par rapport à desmodèles appris sur les mêmes données mais sans prendre en compte les classes de variabilité. Une combinaison au niveauacoustique (mélange de Gaussiennes) a donné les meilleures performances.

Acoustical Modeling for Speech Recognition: Long Units and Multi-Modeling

Modélisation acoustique pour la reconnaissance de la parole : unités longues et multi modélisation

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager