A Comparative study of sample selection methods for classification

Patricia E.N. Lutu; Andries P. Engelbrecht

doi:10.46298/arima.1880

Article Dans Une Revue Revue Africaine de Recherche en Informatique et Mathématiques Appliquées Année : 2007

A Comparative study of sample selection methods for classification

(1) , (1)

Patricia E.N. Lutu

Fonction : Auteur

Department of Informatics [Pretoria]

Andries P. Engelbrecht

Fonction : Auteur

Department of Informatics [Pretoria]

Résumé

Sampling of large datasets for data mining is important for at least two reasons. The processing of large amounts of data results in increased computational complexity. The cost of this additional complexity may not be justifiable. On the other hand, the use of small samples results in fast and efficient computation for data mining algorithms. Statistical methods for obtaining sufficient samples from datasets for classification problems are discussed in this paper. Results are presented for an empirical study based on the use of sequential random sampling and sample evaluation using univariate hypothesis testing and an information theoretic measure. Comparisons are made between theoretical and empirical estimates.

L’échantillonnage pour le minage de large ensemble de données est important pour au moins deux raisons. Le traitement de grande quantité de données a pour résultat une augmentation de la complexité informatique. Le coût de cette complexité additionnelle pourrait être non justifiable. D’autre part, l’utilisation de petits échantillons a pour résultat des calculs rapides et efficaces pour les algorithmes de minage de données. Les méthodes de statistique pour obtenir des échantillons d’ensemble de donnés satisfaisants pour les problèmes de classification sont discutées dans ce papier. Des résultats sont présentés pour une étude empirique basée sur l’utilisation d’échantillonnage aléatoire séquentiel et l’évaluation d’échantillon utilisant le test d’hypothèse univariée et une mesure théorétique de l’information. Des comparaisons sont faites entre des estimations théoriques et empiriques

Mots clés

dataset sampling data analysis machine learning classification information measures

échantillonnage d’ensemble de données analyse de données apprentissage de machine classification

Domaines

Informatique [cs] Mathématiques [math]

Fichier principal

arima00606.pdf (253.65 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Coordination Episciences Iam : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01262348

Soumis le : mardi 26 janvier 2016-16:05:10

Dernière modification le : lundi 8 avril 2024-13:55:57

Archivage à long terme le : mercredi 27 avril 2016-13:20:57

Dates et versions

hal-01262348 , version 1 (26-01-2016)

Identifiants

HAL Id : hal-01262348 , version 1
DOI : 10.46298/arima.1880

Citer

Patricia E.N. Lutu, Andries P. Engelbrecht. A Comparative study of sample selection methods for classification. Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 2007, Volume 6, april 2007, joint Special Issue ARIMA/SACJ on Advances in end-user data mining techniques, pp.69--85. ⟨10.46298/arima.1880⟩. ⟨hal-01262348⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

70 Consultations

984 Téléchargements

A Comparative study of sample selection methods for classification

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Altmetric

Partager