A New Test of Cluster Hypothesis Using a Scalable Similarity-Based Agglomerative Hierarchical Clustering Framework - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

A New Test of Cluster Hypothesis Using a Scalable Similarity-Based Agglomerative Hierarchical Clustering Framework

Résumé

The Cluster Hypothesis is the fundamental assumption of using clustering in Information Retrieval. It states that similar documents tend to be relevant to the same query. Past research works extensively test this hypothesis using agglomerative hierarchical clustering (AHC) methods. However, their conclusions are not consistent concerning retrieval effectiveness for a given clustering method. The main limit of these works is the scalability issue of AHC. In this paper, we extend our previous work to a new test of the cluster hypothesis by applying a scalable similarity-based AHC framework. Principally, the input pairwise cosine similarity matrix is sparsified by given threshold values to reduce memory usage and running time. Our experiments show that even when the similarity matrix is largely sparsified, retrieval effectiveness is retained for all tested methods. Moreover, for two clustering methods, complete link and average link, they do not always dominate the other methods as reported in past works.
L'hypothèse de cluster est l'hypothèse fondamentale de l'utilisation du clustering dans la recherche d'information. Elle indique que les documents semblables ont tendance à être pertinents pour la même requête. Des travaux passés testent intensivement cette hypothèse avec les méthodes de la classification ascendante hiérarchique (CAH). Mais leurs conclusions ne sont pas cohérentes en termes d'efficacité de la recherche. La limite principale dans ces travaux est le problème de passage à l'échelle lié a là CAH. Dans cet article, nous étendons nos travail précédent à un nouveau test de l'hypothèse de cluster en appliquant un système extensible de CAH basé sur la similarité. Principalement, la matrice de similarité cosinus est sparsifiée par des seuils pour réduire l'occupation mémoire et le temps de calcul. Nos résultats montrent que même quand la matrice est largement sparsifiée, l'efficacité de la recherche est maintenue pour toutes les méthodes, dont le complete et l'average ne dominent pas toujours les autres.
Fichier principal
Vignette du fichier
coria.pdf (295.89 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01504961 , version 1 (12-04-2017)

Licence

Copyright (Tous droits réservés)

Identifiants

  • HAL Id : hal-01504961 , version 1

Citer

Xinyu Wang, Julien Ah-Pine, Jerome Darmont. A New Test of Cluster Hypothesis Using a Scalable Similarity-Based Agglomerative Hierarchical Clustering Framework. CORIA 2017 | Conférence en Recherche d'Information et Applications et Rencontres des Jeunes Chercheurs en Recherche d'Information, Mar 2017, Marseille, France. ⟨hal-01504961⟩
178 Consultations
117 Téléchargements

Partager

Gmail Facebook X LinkedIn More