Note sur l'approximation de la loi hypergéométrique par la formule de Muller

Pierre Hubert; Dominique Labbé

Chapitre D'ouvrage Année : 1988

Note sur l'approximation de la loi hypergéométrique par la formule de Muller

, (1)

Pierre Hubert

Fonction : Auteur

Dominique Labbé

Fonction : Auteur
PersonId : 952972

Centre de recherche sur l'administration, la ville et le territoire

Résumé

The argument which is developed here starts from the computation of the probability that a word will be absent from an exhaustive random sample drawn from a corpus whose complete frequency distribution is known. This probability is the basis of the formula put forward, more than 20 years ago, by C. Muller. Muller's formula is compared here to its equivalent in the hypergeometric model. Two studies were carried out: first the computation of vocabulary increase in corpuses and, secondly, the comparison between Muller's values and averages obtained by drawing a large number of random samples from several corpuses. It is thus demonstrated that this formula is a good approximation of the hypergeometric law. The need for associating standard deviations to the computed values is also emphasised since confidence levels have to be taken into account.

Le raisonnement part de l'estimation de la probabilité d'absence d'un vocable dans un échantillon exhaustif prélevé dans un corpus, connaissant la distribution des fréquences des vocables qui constituent ce corpus. C'est la formule qui a été proposée il y a plus de vingt ans par Charles Muller et qui est ici comparée avec la loi hypergéométrique. Deux applications sont examinées : le calcul de l'accroissement du vocabulaire dans des corpus et le prélèvement aléatoire d'un grand nombre d'échantillons exhaustifs sur ces corpus. On démontre ainsi, théoriquement et empiriquement, que la formule de Muller représente une bonne approximation de la loi hypergéométrique. On montre également la nécessité d'associer aux valeurs calculées un écart type qui permettra d'estimer l'intervalle de confiance attaché aux valeurs obtenues grâce à cette formule de Muller.

Mots clés

statistique loi hypergéométrique linguistique vocabulaire accroissement du vocabulaire

Domaines

Statistiques [math.ST] Théorie [stat.TH] Linguistique

Fichier principal

HubertLabbA_1988a.pdf (145.42 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Dominique Labbé : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00758060

Soumis le : mercredi 28 novembre 2012-08:52:36

Dernière modification le : vendredi 5 avril 2024-03:09:18

Archivage à long terme le : samedi 17 décembre 2016-16:28:27

Dates et versions

hal-00758060 , version 1 (28-11-2012)

Identifiants

HAL Id : hal-00758060 , version 1

Citer

Pierre Hubert, Dominique Labbé. Note sur l'approximation de la loi hypergéométrique par la formule de Muller. Dominique Labbé, Philippe Thoiron, Daniel Serant. Etudes sur la richesse et la structures lexicales, Slatkine-Champion, pp.77-91, 1988. ⟨hal-00758060⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS

370 Consultations

1288 Téléchargements

Note sur l'approximation de la loi hypergéométrique par la formule de Muller

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager