Quantization/clustering: when and why does k-means work?

Résumé : Bien qu'utilisé comme algorithme de classification, les k-moyennes sont à la base conçus pour fournir un quantifieur, c'est à dire un moyen de compresser une distribution de probabilités avec k points. En nous appuyant sur les travaux de [21] et [33], nous essayerons d'expliquer en quoi et sous quelles conditions ces deux objectifs à priori distincts sont compatibles. Plus précisément, nous montrerons que dans le cas où la distribution d'où sont tirés les points satisfait une condition de type marge (baptisée ainsi par analogie avec les conditions de marge établies en classification supervisée dans [27]), non seulement le minimiseur théorique du risque empirique associé mais aussi le résultat fourni par l'algorithme de Lloyd fournissent d'une part une classification sinon optimale (au sens de [6]) du moins pertinente et d'autre part une compression rapide (en la taille de l'échantillon) et optimale.
Type de document :
Pré-publication, Document de travail
2018
Liste complète des métadonnées

Littérature citée [36 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01667014
Contributeur : Clément Levrard <>
Soumis le : lundi 29 janvier 2018 - 14:11:17
Dernière modification le : vendredi 31 août 2018 - 08:58:42
Document(s) archivé(s) le : vendredi 25 mai 2018 - 16:01:37

Fichiers

QuantizationandClusteringHAL.p...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01667014, version 2
  • ARXIV : 1801.03742

Collections

Citation

Clément Levrard. Quantization/clustering: when and why does k-means work?. 2018. 〈hal-01667014v2〉

Partager

Métriques

Consultations de la notice

80

Téléchargements de fichiers

47