Quantization/clustering: when and why does k-means work?

Clément Levrard

Pré-Publication, Document De Travail Année : 2018

Quantization/clustering: when and why does k-means work?

(1)

Clément Levrard

Fonction : Auteur
PersonId : 919369

Laboratoire de Probabilités, Statistique et Modélisation

Résumé

Though mostly used as a clustering algorithm, k-means are originally designed as a quantization algorithm. Namely, it aims at providing a compression of a probability distribution with k points. Building upon [21, 33], we try to investigate how and when these two approaches are compatible. Namely, we show that provided the sample distribution satisfies a margin like condition (in the sense of [27] for supervised learning), both the associated empirical risk minimizer and the output of Lloyd's algorithm provide almost optimal classification in certain cases (in the sense of [6]). Besides, we also show that they achieved fast and optimal convergence rates in terms of sample size and compression risk.

Bien qu'utilisé comme algorithme de classification, les k-moyennes sont à la base conçus pour fournir un quantifieur, c'est à dire un moyen de compresser une distribution de probabilités avec k points. En nous appuyant sur les travaux de [21] et [33], nous essayerons d'expliquer en quoi et sous quelles conditions ces deux objectifs à priori distincts sont compatibles. Plus précisément, nous montrerons que dans le cas où la distribution d'où sont tirés les points satisfait une condition de type marge (baptisée ainsi par analogie avec les conditions de marge établies en classification supervisée dans [27]), non seulement le minimiseur théorique du risque empirique associé mais aussi le résultat fourni par l'algorithme de Lloyd fournissent d'une part une classification sinon optimale (au sens de [6]) du moins pertinente et d'autre part une compression rapide (en la taille de l'échantillon) et optimale.

Mots clés

clustering quantization and phrases: k-means distortion separation rate

k-means distortion classification non-supervisée distorsion quantification 62E17 separation rate clustering quantization AMS 2000 subject classifications: 62H30 vitesse de séparation

Domaines

Statistiques [math.ST]

Fichier principal

QuantizationandClusteringHAL.pdf (639.12 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Clément Levrard : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01667014

Soumis le : lundi 29 janvier 2018-14:11:17

Dernière modification le : samedi 27 avril 2024-03:10:24

Archivage à long terme le : vendredi 25 mai 2018-16:01:37

Dates et versions

hal-01667014 , version 1 (10-01-2018)

hal-01667014 , version 2 (29-01-2018)

Identifiants

HAL Id : hal-01667014 , version 2
ARXIV : 1801.03742

Citer

Clément Levrard. Quantization/clustering: when and why does k-means work?. 2018. ⟨hal-01667014v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS7 CNRS INSMI USPC LPSM SORBONNE-UNIVERSITE SU-SCIENCES UP-SCIENCES

198 Consultations

156 Téléchargements

Quantization/clustering: when and why does k-means work?

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager