Amélioration des modèles de repli par des sacs de mots et des n-grammes à variables

Résumé : Les modèles classiques de n-grammes manquent de robustesse sur évènements non observés. La littérature suggère des méthodes de lissage, la plus utilisée d'entre elles étant le Kneyser-Ney modifié. Nous proposons d'améliorer ce modèle en réordonnant les possibilités de replis par rapport à l'information mutuelle portée par les mots ; ainsi que par l'utilisation de n-grammes à variables. Nos résultats montrent un gain significatif par rapport un modèle Kneyser-Ney modifié : 0.6% de gain absolu sans adaptation des modèles acoustiques et 0.4% après adaptation. ABSTRACT Improving back-off models with bag of words and hollow-grams Classical n-grams models lack robustness on unseen events. The literature suggests several smoothing methods : empirically, the most effective of these is the modified Kneser-Ney approach. We propose to improve this back-off model : our method boils down to back-off value reordering, according to the mutual information of the words, and to a new hollow-gram model. Results show that our back-off model yields significant improvements to the baseline, based on the modified Kneser-Ney back-off. We obtain a 0.6% absolute word error rate improvement without acoustic adaptation, and 0.4% after adaptation. MOTS-CLÉS : modèles de langage, modèles de replis.
Document type :
Reports
Liste complète des métadonnées

Cited literature [9 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01658887
Contributor : Benjamin Lecouteux <>
Submitted on : Thursday, December 7, 2017 - 9:36:20 PM
Last modification on : Tuesday, April 2, 2019 - 1:48:07 AM

File

ModelesSac.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01658887, version 1

Collections

Citation

Raphaël Rubino, Benjamin Lecouteux, Georges Linares. Amélioration des modèles de repli par des sacs de mots et des n-grammes à variables. [Rapport de recherche] LIG. 2016. ⟨hal-01658887⟩

Share

Metrics

Record views

73

Files downloads

82