Quantization/clustering: when does k-means work?

Résumé : Résumé : Bien qu'utilisé comme algorithme de classification, les k-moyennes sont à la base conçus pour fournir un quantifieur, c'est à dire un moyen de compresser une distribution de probabilités avec k points. En nous appuyant sur les travaux de [21] et [33], nous essayerons d'expliquer en quoi et sous quelles conditions ces deux objectifs à priori distincts sont compatibles. Plus précisément, nous montrerons que dans le cas où la distribution d'où sont tirés les points satisfait une condition de type marge (baptisée ainsi par analogie avec les conditions de marge établies en classification supervisée dans [27]), non seulement le minimiseur théorique du risque empirique associé mais aussi le résultat fourni par l'algorithme de Lloyd fournissent d'une part une classification sinon optimale (au sens de [6]) du moins pertinente et d'autre part une compression rapide (en la taille de l'échantillon) et optimale.
Type de document :
Pré-publication, Document de travail
2018
Liste complète des métadonnées

Littérature citée [37 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01667014
Contributeur : Clément Levrard <>
Soumis le : mercredi 10 janvier 2018 - 14:15:59
Dernière modification le : samedi 13 janvier 2018 - 01:21:43

Fichiers

QuantizationandClusteringHAL.p...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01667014, version 1
  • ARXIV : 1801.03742

Collections

INSMI | UPMC | USPC | PMA

Citation

Clément Levrard. Quantization/clustering: when does k-means work?. 2018. 〈hal-01667014〉

Partager

Métriques

Consultations de la notice

17

Téléchargements de fichiers

3