Au fond du GOOFRE, un gisement de 44 milliards de mots

Étienne Brunet 1
1 BCL, équipe Logométrie et corpus politiques, médiatiques et littéraires
BCL - Bases, Corpus, Langage (UMR 7320 - UNS / CNRS)
Résumé : En décembre 2010, un article a paru dans Science, qui rendait compte d’une entreprise pharaonique de Google : le recensement, la saisie et l’indexation des textes imprimés dans le monde depuis l’origine de l’imprimerie. En s’en tenant au domaine français les chiffres brutalisent l’imagination: 500000 volumes complets, 1 million de mots différents, 44 milliards d’occurrences. Pour chacun des mots de la base française, et chacune des configurations lexicales de 1 à 5 mots, la courbe chronologique peut être obtenue sur Internet. On fera la critique de cette réalisation sans cacher ses points faibles : beaucoup d’erreurs de lecture, mais aussi des défauts de conception et de traitement ont paru justifier une mise en œuvre plus pertinente des mêmes données, afin de les ouvrir aux outils de la lexicométrie et particulièrement aux analyses multidimensionnelles. Une nouvelle base, du nom de Goofre, a été créée qui sans rien perdre des 44 milliards de mots du corpus original, en offre une exploitation autonome et synthétique.
Type de document :
Communication dans un congrès
Anne Dister, Dominique Longrée, Gérald Purnelle. JADT 2012, Jun 2012, Liège, Belgium. pp.7-21, 2012, JADT 2012
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01371763
Contributeur : Umr 7320 Bases, Corpus, Langage <>
Soumis le : lundi 26 septembre 2016 - 14:29:01
Dernière modification le : mercredi 19 octobre 2016 - 16:22:45

Identifiants

  • HAL Id : hal-01371763, version 1

Collections

Citation

Étienne Brunet. Au fond du GOOFRE, un gisement de 44 milliards de mots. Anne Dister, Dominique Longrée, Gérald Purnelle. JADT 2012, Jun 2012, Liège, Belgium. pp.7-21, 2012, JADT 2012. <hal-01371763>

Partager

Métriques

Consultations de la notice

53