Erreurs OCR et biais d'indexation : impact sur les usages

Résumé : Les méthodes d'analyse classiquement appliquées dans le contexte du Big Data, provoquent souvent un phénomène de « boîte noire » où la qualité de numérisation des documents peut être un paramètre négligé. En dépit des bonnes pratiques en vigueur inhérentes au métier de data-journalist, se pose la problématique des biais statistiques induits par ce manque de transparence sur la fiabilité des sources. S'inscrivant dans le cadre du projet AméliOCR, cet article vise à estimer ces potentiels biais sur l'indexation et la recherche. Cette étude s'appuie sur un corpus de documents OCéRisés associés à leur vérité terrain, ainsi que sur des historiques de recherche sur Gallica.
Type de document :
Communication dans un congrès
17ème conférence Extraction et Gestion des Connaissances, Atelier Journalisme Computationnel, Jan 2017, Grenoble, France. pp.69-73, 2017
Liste complète des métadonnées

Littérature citée [10 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01455763
Contributeur : Guillaume Chiron <>
Soumis le : vendredi 3 février 2017 - 18:09:12
Dernière modification le : jeudi 26 avril 2018 - 17:26:02
Document(s) archivé(s) le : vendredi 5 mai 2017 - 13:06:18

Fichier

EGC_2017_paper_160 (9).pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01455763, version 1

Collections

BNF

Citation

Guillaume Chiron, Jean-Philippe Moreux, Antoine Doucet, Mickaël Coustaty, Muriel Visani. Erreurs OCR et biais d'indexation : impact sur les usages. 17ème conférence Extraction et Gestion des Connaissances, Atelier Journalisme Computationnel, Jan 2017, Grenoble, France. pp.69-73, 2017. 〈hal-01455763〉

Partager

Métriques

Consultations de la notice

124

Téléchargements de fichiers

151