GOOFRE version 2

Etienne Brunet 1 Laurent Vanni 1
1 BCL, équipe Logométrie et corpus politiques, médiatiques et littéraires
BCL - Bases, Corpus, Langage (UMR 7320 - UNS / CNRS)
Abstract : The amount of data contained within Google Books has doubled over the last two years and now exceeds 500 billion words. A new treatment of the data has included a re-examination of scanned images, offering a more accurate recognition of the text. In addition, for the first time, included texts have been subjected to deambigation and lemmatisation. Finally, the website Culturomics has made tools available that facilitate its accessibility. It seemed interesting, therefore, to develop a new expertise and to create a new database, complete with all the necessary statistical tools, available online or locally, for exploiting such large corpora.
Type de document :
Communication dans un congrès
Emilie Née; Jean-Michel Daube; Mathieu Valette; Serge Fleury. JADT 2014, Jun 2014, Paris, France. p. 106-119
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01196595
Contributeur : Laurent Vanni <>
Soumis le : mercredi 16 septembre 2015 - 09:57:56
Dernière modification le : mercredi 19 octobre 2016 - 16:27:05
Document(s) archivé(s) le : lundi 28 décembre 2015 - 23:43:08

Fichier

jadt2014-paper-62.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01196595, version 1

Collections

Citation

Etienne Brunet, Laurent Vanni. GOOFRE version 2. Emilie Née; Jean-Michel Daube; Mathieu Valette; Serge Fleury. JADT 2014, Jun 2014, Paris, France. p. 106-119. <hal-01196595>

Partager

Métriques

Consultations de
la notice

190

Téléchargements du document

203