Au fond du GOOFRE, un gisement de 44 milliards de mots - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Au fond du GOOFRE, un gisement de 44 milliards de mots

Résumé

En décembre 2010, un article a paru dans Science, qui rendait compte d'une entreprise pharaonique de Google : le recensement, la saisie et l'indexation des textes imprimés dans le monde depuis l'origine de l'imprimerie. En s'en tenant au domaine français les chiffres brutalisent l'imagination: 500 000 volumes complets, 1 million de mots différents, 44 milliards d'occurrences. Pour chacun des mots de la base française, et chacune des configurations lexicales de 1 à 5 mots, la courbe chronologique peut être obtenue sur Internet. On fera la critique de cette réalisation sans cacher ses points faibles : beaucoup d'erreurs de lecture, mais aussi des défauts de conception et de traitement ont paru justifier une mise en oeuvre plus pertinente des mêmes données, afin de les ouvrir aux outils de la lexicométrie et particulièrement aux analyses multidimensionnelles. Une nouvelle base, du nom de Goofre, a été créée qui sans rien perdre des 44 milliards de mots du corpus original, en offre une exploitation autonome et synthétique.
Fichier principal
Vignette du fichier
21_g_goofre.pdf (1.38 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01790505 , version 1 (28-05-2018)

Identifiants

  • HAL Id : hal-01790505 , version 1

Citer

Étienne Brunet. Au fond du GOOFRE, un gisement de 44 milliards de mots. 11ème Journées internationales d'Analyse statistique des Données Textuelles (JADT 2012 ), Jun 2012, Liège, Belgique. pp.7-21. ⟨hal-01790505⟩
143 Consultations
59 Téléchargements

Partager

Gmail Facebook X LinkedIn More