Efficient estimation of the cardinality of large data sets - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2006

Efficient estimation of the cardinality of large data sets

Philippe Chassaing
Lucas Gerin
  • Fonction : Auteur
  • PersonId : 835101

Résumé

F.Giroire has recently proposed an algorithm which returns the approximate number of distincts elements in a large sequence of words, under strong constraints coming from the analysis of large data bases. His estimation is based on statistical properties of uniform random variables in $[0,1]$. In this note we propose an optimal estimation, using Kullback information and estimation theory.
Fichier principal
Vignette du fichier
EfficientEstimation.pdf (178.17 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-00095370 , version 1 (12-01-2007)
hal-00095370 , version 2 (28-08-2007)
hal-00095370 , version 3 (29-08-2007)
hal-00095370 , version 4 (22-04-2011)
hal-00095370 , version 5 (17-08-2015)

Licence

Paternité

Identifiants

Citer

Philippe Chassaing, Lucas Gerin. Efficient estimation of the cardinality of large data sets. Fourth Colloquium on Mathematics and Computer Science Algorithms, Trees, Combinatorics and Probabilities, 2006, Nancy, France. pp.419-422. ⟨hal-00095370v4⟩
653 Consultations
770 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More