Mesures de qualité de clustering de documents : Prise en compte de la distribution des mots clés - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Mesures de qualité de clustering de documents : Prise en compte de la distribution des mots clés

Résumé

Nos travaux sur une nouvelle méthode de classification non supervisée (Germen) nous ont amenés à nous interroger sur la qualité des résultats obtenus. Le problème est d'estimer si une méthode de clustering est 'meilleure' qu'une autre pour le type de données que nous traitons (données textuelles). Dans un premier temps, après avoir fait un état de l'art des méthodes existantes, nous avons appliqué quelques indices de qualité aux résultats de clustering issus de notre algorithme Germen ainsi que d'autres algorithmes communément utilisés. Ces indices de qualité ne permettant pas de sélectionner la meilleure partition, nous avons développé une nouvelle série d'indices basés sur la distribution des mots-clés. Nous présentons et discutons les résultats obtenus ainsi que les réflexions engagées pour faire évoluer l'évaluation de classifications non supervisées sur des textes. 1 Introduction
Fichier principal
Vignette du fichier
EVALECD_Ghribi_Cuxac_JCL_AL_VF.pdf (598.48 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00614071 , version 1 (09-08-2011)

Licence

Paternité

Identifiants

  • HAL Id : hal-00614071 , version 1

Citer

Maha Ghribi, Pascal Cuxac, Jean-Charles Lamirel, Alain Lelu. Mesures de qualité de clustering de documents : Prise en compte de la distribution des mots clés. 10ème Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances - EGC 2010, Jan 2010, Hammamet, Tunisie. ⟨hal-00614071⟩
636 Consultations
9301 Téléchargements

Partager

Gmail Facebook X LinkedIn More