Combinaison de modèles de langage pour l'identification de thèmes - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 1998

Combinaison de modèles de langage pour l'identification de thèmes

Brigitte Bigi
Renato de Mori
  • Fonction : Auteur
  • PersonId : 981954
Marc El Bèze
  • Fonction : Auteur
  • PersonId : 949557
Thierry Spriet

Résumé

A new statistical method for Language Modeling and spoken document classification is proposed. It is based on a mixture of topic dependent probabilities. Each topic dependent probability is in turn a mixture of n-gram probabilities and the probability of Kullback-Lieber (KL) distances between key-word unigrams and distribution obtained from the content of a cache memory. Experimental result on topic classification using a corpus of 60 Mwords from the French newspaper Le Monde show the excellent performance of the cache memory and its complementary role in providing different statistics for the decision process.
Fichier principal
Vignette du fichier
bigi1998jep.pdf (139.89 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01392234 , version 1 (15-12-2016)

Licence

Copyright (Tous droits réservés)

Identifiants

  • HAL Id : hal-01392234 , version 1

Citer

Brigitte Bigi, Renato de Mori, Marc El Bèze, Thierry Spriet. Combinaison de modèles de langage pour l'identification de thèmes . XXIIèmes Journées d'Etudes sur la Parole, 1998, Martigny, Suisse. pp.347-350. ⟨hal-01392234⟩

Collections

UNIV-AVIGNON LIA
57 Consultations
22 Téléchargements

Partager

Gmail Facebook X LinkedIn More