Au fond du GOOFRE, un gisement de 44 milliards de mots
Résumé
En décembre 2010, un article a paru dans Science, qui rendait compte d'une entreprise pharaonique de Google : le recensement, la saisie et l'indexation des textes imprimés dans le monde depuis l'origine de l'imprimerie. En s'en tenant au domaine français les chiffres brutalisent l'imagination: 500 000 volumes complets, 1 million de mots différents, 44 milliards d'occurrences. Pour chacun des mots de la base française, et chacune des configurations lexicales de 1 à 5 mots, la courbe chronologique peut être obtenue sur Internet.
On fera la critique de cette réalisation sans cacher ses points faibles : beaucoup d'erreurs de lecture, mais aussi des défauts de conception et de traitement ont paru justifier une mise en oeuvre plus pertinente des mêmes données, afin de les ouvrir aux outils de la lexicométrie et particulièrement aux analyses multidimensionnelles.
Une nouvelle base, du nom de Goofre, a été créée qui sans rien perdre des 44 milliards de mots du corpus original, en offre une exploitation autonome et synthétique.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...