Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissance de la parole

Christian Gillot 1, 2
1 SYNALP - Natural Language Processing : representations, inference and semantics
LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
2 PAROLE - Analysis, perception and recognition of speech
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Un modèle de langue stochastique a pour rôle de donner la meilleure estimation possible de la probabilité d’une suite de mots dans une langue donnée. C’est un composant essentiel des logiciels de reconnaissance de la parole duquel dépend grandement leurs performances. Les modèles état-de-l’art les plus utilisés sont les moèles n-grammes lissés par la technique de Kneser-Ney. Ces modèles utilisent les statistiques d’occurrence de séquences de mots d’une longueur maximale typiquement de 5, statistiques calculés sur un vaste corpus d’apprentissage. Cette thèse commence par une étude empirique des erreurs d’un système de reconnaissance de la parole état-de-l’art en français. Il est apparu que de nombreux phénomènes langagiers réguliers sont hors de portée des modèles n-grammes. Cette thèse explore donc une approche duale du paradigme statistique dominant en utilisant des modèles à base de mémoire qui traitent efficacement les phénomènes spécifiques en synergie avec les modèles n-grammes qui modélisent efficacement les grandes tendances. La notion de similarité entre longs n-grammes est étudiée, de façon à identifier les contextes particuliers à prendre en compte dans un premier modèle de langue de similarité. Les informations ainsi extraites du corpus sont combinées via un noyau Gaussien pour calculer un nouveau score. L’intégration de ce modèle non probabiliste, a permis d’améliorer les performances d’un système de reconnaissance. Un deuxième modèle est proposé, probabiliste et permettant ainsi une meilleur intégration de l’approche par similarité avec les modèles existants et qui améliore les performances en perplexité sur du texte.
Type de document :
Thèse
Intelligence artificielle [cs.AI]. Université de Lorraine, 2012. Français
Liste complète des métadonnées

Littérature citée [62 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01258153
Contributeur : Christophe Cerisara <>
Soumis le : lundi 18 janvier 2016 - 16:53:15
Dernière modification le : jeudi 11 janvier 2018 - 06:23:43
Document(s) archivé(s) le : vendredi 11 novembre 2016 - 10:01:01

Identifiants

  • HAL Id : tel-01258153, version 1

Citation

Christian Gillot. Modèles de langue exploitant la similarité structurelle entre séquences pour la reconnaissance de la parole. Intelligence artificielle [cs.AI]. Université de Lorraine, 2012. Français. 〈tel-01258153〉

Partager

Métriques

Consultations de la notice

314

Téléchargements de fichiers

170