A New Test of Cluster Hypothesis Using a Scalable Similarity-Based Agglomerative Hierarchical Clustering Framework

Abstract : The Cluster Hypothesis is the fundamental assumption of using clustering in Information Retrieval. It states that similar documents tend to be relevant to the same query. Past research works extensively test this hypothesis using agglomerative hierarchical clustering (AHC) methods. However, their conclusions are not consistent concerning retrieval effectiveness for a given clustering method. The main limit of these works is the scalability issue of AHC. In this paper, we extend our previous work to a new test of the cluster hypothesis by applying a scalable similarity-based AHC framework. Principally, the input pairwise cosine similarity matrix is sparsified by given threshold values to reduce memory usage and running time. Our experiments show that even when the similarity matrix is largely sparsified, retrieval effectiveness is retained for all tested methods. Moreover, for two clustering methods, complete link and average link, they do not always dominate the other methods as reported in past works.
Type de document :
Communication dans un congrès
CORIA 2017 | Conférence en Recherche d'Information et Applications et Rencontres des Jeunes Chercheurs en Recherche d'Information, Mar 2017, Marseille, France. 〈http://www3.lsis.org/coria2017/〉
Liste complète des métadonnées

Littérature citée [11 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01504961
Contributeur : Xinyu Wang <>
Soumis le : mercredi 12 avril 2017 - 12:20:28
Dernière modification le : mardi 16 janvier 2018 - 15:49:36
Document(s) archivé(s) le : jeudi 13 juillet 2017 - 12:21:32

Fichier

coria.pdf
Fichiers produits par l'(les) auteur(s)

Licence


Copyright (Tous droits réservés)

Identifiants

  • HAL Id : hal-01504961, version 1

Collections

Citation

Xinyu Wang, Julien Ah-Pine, Jerome Darmont. A New Test of Cluster Hypothesis Using a Scalable Similarity-Based Agglomerative Hierarchical Clustering Framework. CORIA 2017 | Conférence en Recherche d'Information et Applications et Rencontres des Jeunes Chercheurs en Recherche d'Information, Mar 2017, Marseille, France. 〈http://www3.lsis.org/coria2017/〉. 〈hal-01504961〉

Partager

Métriques

Consultations de la notice

70

Téléchargements de fichiers

41