Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissance de la parole

Christian Gillot

Thèse Année : 2012

Language models exploiting the structural similarity between sequences for automatic speech recognition

Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissance de la parole

(1, 2)

1
2

Christian Gillot

Fonction : Auteur
PersonId : 855337

Natural Language Processing : representations, inference and semantics

Analysis, perception and recognition of speech

Résumé

The role of a stochastic language model is to give the best estimation possible of the probability of the sequence of words in a given language. It is an essential component of any speech recognition software and has a great influence on performance. The state-of-the-art models most commonly used are the n-gram models smoothed using the Kneser-Ney technique. These models use occurrence statistics of word sequences typically up to a length of 5, statistics computed on a large training corpus. This thesis starts by an empirical study of the errors of a state-of-the-art speech recognition system in French, which shows that there are many regular language phenomena that are out of reach of the n-gram models. This thesis thus explores a dual approach of the prevailing statistical paradigm by using memory models which process efficiently specific phenomena, in synergy with the n-gram models which efficiently main trends. The notion of similarity between long n-gram is studied in order to identify the relevant contexts to take into account in a first similarity language model. The data extracted out of the corpus is combined via a Gaussian kernel to compute a new score. The integration of this non-probabilistic model improves the performance of a recognition system. A second model is then introduced, probabilistic and thus allowing a better integration of the similarity approach with the existing models and improves the performance in perplexity on text.

Un modèle de langue stochastique a pour rôle de donner la meilleure estimation possible de la probabilité d’une suite de mots dans une langue donnée. C’est un composant essentiel des logiciels de reconnaissance de la parole duquel dépend grandement leurs performances. Les modèles état-de-l’art les plus utilisés sont les moèles n-grammes lissés par la technique de Kneser-Ney. Ces modèles utilisent les statistiques d’occurrence de séquences de mots d’une longueur maximale typiquement de 5, statistiques calculés sur un vaste corpus d’apprentissage. Cette thèse commence par une étude empirique des erreurs d’un système de reconnaissance de la parole état-de-l’art en français. Il est apparu que de nombreux phénomènes langagiers réguliers sont hors de portée des modèles n-grammes. Cette thèse explore donc une approche duale du paradigme statistique dominant en utilisant des modèles à base de mémoire qui traitent efficacement les phénomènes spécifiques en synergie avec les modèles n-grammes qui modélisent efficacement les grandes tendances. La notion de similarité entre longs n-grammes est étudiée, de façon à identifier les contextes particuliers à prendre en compte dans un premier modèle de langue de similarité. Les informations ainsi extraites du corpus sont combinées via un noyau Gaussien pour calculer un nouveau score. L’intégration de ce modèle non probabiliste, a permis d’améliorer les performances d’un système de reconnaissance. Un deuxième modèle est proposé, probabiliste et permettant ainsi une meilleur intégration de l’approche par similarité avec les modèles existants et qui améliore les performances en perplexité sur du texte.

Mots clés

language models

modèle de langue similarité modèle stochastique reconnaissance de la parole théorie de l’édition des séquences modèle de mémoire n-gramme

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

these_cgillot.pdf (791.1 Ko)

Christophe Cerisara : Connectez-vous pour contacter le contributeur

https://hal.science/tel-01258153

Soumis le : lundi 18 janvier 2016-16:53:15

Dernière modification le : lundi 11 septembre 2023-17:41:18

Archivage à long terme le : vendredi 11 novembre 2016-10:01:01

Dates et versions

tel-01258153 , version 1 (18-01-2016)

Identifiants

HAL Id : tel-01258153 , version 1

Citer

Christian Gillot. Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissance de la parole. Intelligence artificielle [cs.AI]. Université de Lorraine, 2012. Français. ⟨NNT : ⟩. ⟨tel-01258153⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA LORIA-NLPKD THESES-UL

248 Consultations

543 Téléchargements

Language models exploiting the structural similarity between sequences for automatic speech recognition

Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissance de la parole

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager