Using Kullback-Leibler Distance for Text Categorization

Brigitte Bigi

doi:10.1007/3-540-36618-0_22

Chapitre D'ouvrage Année : 2003

Using Kullback-Leibler Distance for Text Categorization

(1)

Brigitte Bigi

Fonction : Auteur
PersonId : 7990
IdHAL : brigittebigi
ORCID : 0000-0003-1834-6918
IdRef : 079410790

Environnements et outils pour le Génie Logiciel Industriel

Résumé

A system that performs text categorization aims to assign appropriate categories from a predefined classification scheme to incoming documents. These assignments might be used for varied purposes such as filtering, or retrieval. This paper introduces a new effective model for text categorization with great corpus (more or less 1 million documents). Text categorization is performed using the Kullback-Leibler distance between the probability distribution of the document to classify and the probability distribution of each category. Using the same representation of categories, experiments show a significant improvement when the above mentioned method is used. KLD method achieve substantial improvements over the tfidf performing method.

Mots clés

Kullback-Leibler Divergence Text categorization

Domaines

Informatique et langage [cs.CL] Sciences de l'information et de la communication

Fichier principal

bigi2003ecir.pdf (279.64 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Brigitte Bigi : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01392500

Soumis le : vendredi 12 novembre 2021-07:45:57

Dernière modification le : jeudi 4 avril 2024-18:17:36

Archivage à long terme le : dimanche 13 février 2022-18:13:19

Dates et versions

hal-01392500 , version 1 (12-11-2021)

Identifiants

HAL Id : hal-01392500 , version 1
DOI : 10.1007/3-540-36618-0_22

Citer

Brigitte Bigi. Using Kullback-Leibler Distance for Text Categorization. Advances in Information Retrieval, 2633, Springer Berlin Heidelberg, pp.305-319, 2003, ⟨10.1007/3-540-36618-0_22⟩. ⟨hal-01392500⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS LIG LIG_SIDCH

206 Consultations

418 Téléchargements

Using Kullback-Leibler Distance for Text Categorization

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager