Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissance de la parole - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2012

Language models exploiting the structural similarity between sequences for automatic speech recognition

Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissance de la parole

Résumé

The role of a stochastic language model is to give the best estimation possible of the probability of the sequence of words in a given language. It is an essential component of any speech recognition software and has a great influence on performance. The state-of-the-art models most commonly used are the n-gram models smoothed using the Kneser-Ney technique. These models use occurrence statistics of word sequences typically up to a length of 5, statistics computed on a large training corpus. This thesis starts by an empirical study of the errors of a state-of-the-art speech recognition system in French, which shows that there are many regular language phenomena that are out of reach of the n-gram models. This thesis thus explores a dual approach of the prevailing statistical paradigm by using memory models which process efficiently specific phenomena, in synergy with the n-gram models which efficiently main trends. The notion of similarity between long n-gram is studied in order to identify the relevant contexts to take into account in a first similarity language model. The data extracted out of the corpus is combined via a Gaussian kernel to compute a new score. The integration of this non-probabilistic model improves the performance of a recognition system. A second model is then introduced, probabilistic and thus allowing a better integration of the similarity approach with the existing models and improves the performance in perplexity on text.
Un modèle de langue stochastique a pour rôle de donner la meilleure estimation possible de la probabilité d’une suite de mots dans une langue donnée. C’est un composant essentiel des logiciels de reconnaissance de la parole duquel dépend grandement leurs performances. Les modèles état-de-l’art les plus utilisés sont les moèles n-grammes lissés par la technique de Kneser-Ney. Ces modèles utilisent les statistiques d’occurrence de séquences de mots d’une longueur maximale typiquement de 5, statistiques calculés sur un vaste corpus d’apprentissage. Cette thèse commence par une étude empirique des erreurs d’un système de reconnaissance de la parole état-de-l’art en français. Il est apparu que de nombreux phénomènes langagiers réguliers sont hors de portée des modèles n-grammes. Cette thèse explore donc une approche duale du paradigme statistique dominant en utilisant des modèles à base de mémoire qui traitent efficacement les phénomènes spécifiques en synergie avec les modèles n-grammes qui modélisent efficacement les grandes tendances. La notion de similarité entre longs n-grammes est étudiée, de façon à identifier les contextes particuliers à prendre en compte dans un premier modèle de langue de similarité. Les informations ainsi extraites du corpus sont combinées via un noyau Gaussien pour calculer un nouveau score. L’intégration de ce modèle non probabiliste, a permis d’améliorer les performances d’un système de reconnaissance. Un deuxième modèle est proposé, probabiliste et permettant ainsi une meilleur intégration de l’approche par similarité avec les modèles existants et qui améliore les performances en perplexité sur du texte.
Fichier principal
Vignette du fichier
these_cgillot.pdf (791.1 Ko) Télécharger le fichier
Loading...

Dates et versions

tel-01258153 , version 1 (18-01-2016)

Identifiants

  • HAL Id : tel-01258153 , version 1

Citer

Christian Gillot. Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissance de la parole. Intelligence artificielle [cs.AI]. Université de Lorraine, 2012. Français. ⟨NNT : ⟩. ⟨tel-01258153⟩
248 Consultations
543 Téléchargements

Partager

Gmail Facebook X LinkedIn More