Comparaison de bornes théoriques pour l'accélération du clustering incrémental en une passe - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

Comparaison de bornes théoriques pour l'accélération du clustering incrémental en une passe

Marcin Detyniecki
Thomas Bärecke
  • Fonction : Auteur

Résumé

Le clustering incrémental en une passe repose sur l’affectation efficace de chaque nouveau point aux clusters existants. Dans le cas général, où les clusters ne peuvent être représentés par une moyenne, la détermination exhaustive du cluster le plus proche possède une complexité quadratique avec le nombre de données. Nous proposons dans ce papier une nouvelle méthode d’affectation stochastique à chaque cluster qui minimise le nombre de comparaisons à effectuer entre la donnée et chaque cluster pour garantir, étant donné un taux d’erreur acceptable, l’affectation au cluster le plus proche. Plusieurs bornes théoriques (Bernstein, Hoeffding et Student) sont comparées dans ce papier. Les résultats sur des données artificielles et réelles montrent que la borne de Bernstein donne globalement les meilleurs résultats (notamment lorsqu’elle est réduite) car elle permet une accélération forte du processus de clustering, tout en conservant un nombre très faible d’erreurs.
Fichier non déposé

Dates et versions

hal-01203011 , version 1 (22-09-2015)

Identifiants

  • HAL Id : hal-01203011 , version 1

Citer

Nicolas Labroche, Marcin Detyniecki, Thomas Bärecke. Comparaison de bornes théoriques pour l'accélération du clustering incrémental en une passe. 14èmes Journées Francophones "Extraction et Gestion des Connaissances" (EGC 2014), Jan 2014, Rennes, France. pp.467-478. ⟨hal-01203011⟩
35 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More