De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles

Résumé

Un des défis actuels dans le domaine de la classification supervisée de documents est de pouvoir produire un modèle fiable à partir d'un faible volume de données. Avec un volume conséquent de données, les classifieurs fournissent des résultats satisfaisants mais les performances sont dégradées lorsque celui-ci diminue. Nous proposons, dans cet article, de nouvelles méthodes de pondérations résistant à une diminution du volume de données. Leur efficacité, évaluée en utilisant des algorithmes de classification supervisés existants (Naive Bayes et Class-Feature-Centroid) sur deux corpus différents, est supérieure à celle des autres algorithmes lorsque le nombre de descripteurs diminue. Nous avons étudié en parallèle les paramètres influençant les différentes approches telles que le nombre de classes, de documents ou de descripteurs.
Fichier principal
Vignette du fichier
lirmm-01054903.pdf (249.16 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

lirmm-01054903 , version 1 (06-11-2018)

Identifiants

  • HAL Id : lirmm-01054903 , version 1

Citer

Flavien Bouillot, Pascal Poncelet, Mathieu Roche. De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles. EGC: Extraction et Gestion des Connaissances, Jan 2014, Rennes, France. pp.131-142. ⟨lirmm-01054903⟩
227 Consultations
65 Téléchargements

Partager

Gmail Facebook X LinkedIn More