177 articles – 103 Notices  [english version]
HAL : hal-00672958, version 1

Fiche détaillée  Récupérer au format
Extraction et gestion des connaissances, Bordeaux : France (2012)
Clustering hiérarchique non paramétrique de données fonctionnelles
Marc Boullé 1, Romain Guigourès 1, Fabrice Rossi 2
(02/2012)

Dans cet article, il est question de clustering de courbes. Nous proposons une méthode non paramétrique qui segmente les courbes en clusters et discrétise en intervalles les variables continues décrivant les points de la courbe. Le produit cartésien de ces partitions forme une grille de données qui est inférée en utilisant une approche Bayésienne de sélection de modèle ne faisant aucune hypothèse concernant les courbes. Enfin, une technique de post-traitement, visant à réduire le nombre de clusters dans le but d'améliorer l'interprétabilité des clusters, est proposée. Elle consiste à fusionner successivement et de façon optimale les clusters, ce qui revient à réaliser une classification hiérarchique ascendante dont la mesure de dissimilarité correspond à la variation du critère. De manière intéressante, cette mesure est en fait une somme pondérée de divergences de Kullback-Leibler entre les distributions des clusters avant et après fusions. L'intérêt de l'approche dans le cadre de l'analyse exploratoire de données fonctionnelles est illustré par un jeu de données artificiel et réel.
1 :  Orange Labs [Lannion]
France Télécom
2 :  Statistique, Analyse et Modélisation Multidisciplinaire (SAmos-Marin Mersenne) (SAMM)
Université Paris I - Panthéon-Sorbonne
Mathématiques/Statistiques

Statistiques/Théorie

Statistiques/Machine Learning
Clustering – Données fonctionnelles – Approche Bayésienne
Liste des fichiers attachés à ce document : 
PDF
EGC12-Boulle_Guigoures.pdf(767.9 KB)