Comparaison de bornes théoriques pour l'accélération du clustering incrémental en une passe

Résumé : Le clustering incrémental en une passe repose sur l’affectation efficace de chaque nouveau point aux clusters existants. Dans le cas général, où les clusters ne peuvent être représentés par une moyenne, la détermination exhaustive du cluster le plus proche possède une complexité quadratique avec le nombre de données. Nous proposons dans ce papier une nouvelle méthode d’affectation stochastique à chaque cluster qui minimise le nombre de comparaisons à effectuer entre la donnée et chaque cluster pour garantir, étant donné un taux d’erreur acceptable, l’affectation au cluster le plus proche. Plusieurs bornes théoriques (Bernstein, Hoeffding et Student) sont comparées dans ce papier. Les résultats sur des données artificielles et réelles montrent que la borne de Bernstein donne globalement les meilleurs résultats (notamment lorsqu’elle est réduite) car elle permet une accélération forte du processus de clustering, tout en conservant un nombre très faible d’erreurs.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01203011
Contributor : Lip6 Publications <>
Submitted on : Tuesday, September 22, 2015 - 10:42:00 AM
Last modification on : Thursday, March 21, 2019 - 1:10:07 PM

Identifiers

  • HAL Id : hal-01203011, version 1

Citation

Nicolas Labroche, Marcin Detyniecki, Thomas Bärecke. Comparaison de bornes théoriques pour l'accélération du clustering incrémental en une passe. 14èmes Journées Francophones "Extraction et Gestion des Connaissances" (EGC 2014), Jan 2014, Rennes, France. pp.467-478. ⟨hal-01203011⟩

Share

Metrics

Record views

49