Amélioration des modèles de repli par des sacs de mots et des n-grammes à variables

Résumé : Les modèles classiques de n-grammes manquent de robustesse sur évènements non observés. La littérature suggère des méthodes de lissage, la plus utilisée d'entre elles étant le Kneyser-Ney modifié. Nous proposons d'améliorer ce modèle en réordonnant les possibilités de replis par rapport à l'information mutuelle portée par les mots ; ainsi que par l'utilisation de n-grammes à variables. Nos résultats montrent un gain significatif par rapport un modèle Kneyser-Ney modifié : 0.6% de gain absolu sans adaptation des modèles acoustiques et 0.4% après adaptation. ABSTRACT Improving back-off models with bag of words and hollow-grams Classical n-grams models lack robustness on unseen events. The literature suggests several smoothing methods : empirically, the most effective of these is the modified Kneser-Ney approach. We propose to improve this back-off model : our method boils down to back-off value reordering, according to the mutual information of the words, and to a new hollow-gram model. Results show that our back-off model yields significant improvements to the baseline, based on the modified Kneser-Ney back-off. We obtain a 0.6% absolute word error rate improvement without acoustic adaptation, and 0.4% after adaptation. MOTS-CLÉS : modèles de langage, modèles de replis.
Type de document :
Rapport
[Rapport de recherche] LIG. 2016
Liste complète des métadonnées

Littérature citée [9 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01658887
Contributeur : Benjamin Lecouteux <>
Soumis le : jeudi 7 décembre 2017 - 21:36:20
Dernière modification le : mardi 12 février 2019 - 11:00:45

Fichier

ModelesSac.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01658887, version 1

Collections

Citation

Raphaël Rubino, Benjamin Lecouteux, Georges Linares. Amélioration des modèles de repli par des sacs de mots et des n-grammes à variables. [Rapport de recherche] LIG. 2016. 〈hal-01658887〉

Partager

Métriques

Consultations de la notice

68

Téléchargements de fichiers

65