Classification ascendante hiérarchique à noyaux et une application aux données textuelles - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Classification ascendante hiérarchique à noyaux et une application aux données textuelles

Résumé

La formule de Lance et Williams permet d'unifier plusieurs méthodes de classification ascendante hiérarchique (CAH). Dans cet article, nous suppo-sons que les données sont représentées dans un espace euclidien et nous établis-sons une nouvelle expression de cette formule en utilisant les similarités cosinus au lieu des distances euclidiennes au carré. Notre approche présente les avan-tages suivants. D'une part, elle permet d'étendre naturellement les méthodes classiques de CAH aux fonctions noyau. D'autre part, elle permet d'appliquer des méthodes d'écrêtage permettant de rendre la matrice de similarités creuse afin d'améliorer la complexité de la CAH. L'application de notre approche sur des tâches de classification automatique de données textuelles montre d'une part, que le passage à l'échelle est amélioré en mémoire et en temps de traitement; d'autre part, que la qualité des résultats est préservée voire améliorée.
Fichier principal
Vignette du fichier
paper_egc_17.pdf (166.8 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01525446 , version 1 (20-05-2017)

Identifiants

  • HAL Id : hal-01525446 , version 1

Citer

Julien Ah-Pine, Xinyu Wang. Classification ascendante hiérarchique à noyaux et une application aux données textuelles. EGC, 2017, Grenoble, France. ⟨hal-01525446⟩
139 Consultations
386 Téléchargements

Partager

Gmail Facebook X LinkedIn More