Au fond du GOOFRE, un gisement de 44 milliards de mots

Étienne Brunet

Communication Dans Un Congrès Année : 2012

Au fond du GOOFRE, un gisement de 44 milliards de mots

(1)

Étienne Brunet

Fonction : Auteur
PersonId : 7677
IdHAL : etienne-brunet
IdRef : 026756757

BCL, équipe Logométrie : corpus, traitements, modèles

Résumé

En décembre 2010, un article a paru dans Science, qui rendait compte d'une entreprise pharaonique de Google : le recensement, la saisie et l'indexation des textes imprimés dans le monde depuis l'origine de l'imprimerie. En s'en tenant au domaine français les chiffres brutalisent l'imagination: 500 000 volumes complets, 1 million de mots différents, 44 milliards d'occurrences. Pour chacun des mots de la base française, et chacune des configurations lexicales de 1 à 5 mots, la courbe chronologique peut être obtenue sur Internet. On fera la critique de cette réalisation sans cacher ses points faibles : beaucoup d'erreurs de lecture, mais aussi des défauts de conception et de traitement ont paru justifier une mise en oeuvre plus pertinente des mêmes données, afin de les ouvrir aux outils de la lexicométrie et particulièrement aux analyses multidimensionnelles. Une nouvelle base, du nom de Goofre, a été créée qui sans rien perdre des 44 milliards de mots du corpus original, en offre une exploitation autonome et synthétique.

Mots clés

Culturomics langue française lexicométrie Frantext logiciel Google Books

Domaines

Linguistique Littératures Méthodes et statistiques Applications [stat.AP]

Fichier principal

21_g_goofre.pdf (1.38 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

etienne brunet : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01790505

Soumis le : lundi 28 mai 2018-23:36:02

Dernière modification le : lundi 26 février 2024-11:22:13

Archivage à long terme le : mercredi 29 août 2018-12:16:42

Dates et versions

hal-01790505 , version 1 (28-05-2018)

Identifiants

HAL Id : hal-01790505 , version 1

Citer

Étienne Brunet. Au fond du GOOFRE, un gisement de 44 milliards de mots. 11ème Journées internationales d'Analyse statistique des Données Textuelles (JADT 2012 ), Jun 2012, Liège, Belgique. pp.7-21. ⟨hal-01790505⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS BCL CAMPUS-AAR AAI UNIV-COTEDAZUR

143 Consultations

59 Téléchargements

Au fond du GOOFRE, un gisement de 44 milliards de mots

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager