Erreurs OCR et biais d'indexation : impact sur les usages - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2017

Erreurs OCR et biais d'indexation : impact sur les usages

Résumé

Les méthodes d'analyse classiquement appliquées dans le contexte du Big Data, provoquent souvent un phénomène de « boîte noire » où la qualité de numérisation des documents peut être un paramètre négligé. En dépit des bonnes pratiques en vigueur inhérentes au métier de data-journalist, se pose la problématique des biais statistiques induits par ce manque de transparence sur la fiabilité des sources. S'inscrivant dans le cadre du projet AméliOCR, cet article vise à estimer ces potentiels biais sur l'indexation et la recherche. Cette étude s'appuie sur un corpus de documents OCéRisés associés à leur vérité terrain, ainsi que sur des historiques de recherche sur Gallica.
Fichier principal
Vignette du fichier
EGC_2017_paper_160 (9).pdf (472.32 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01455763 , version 1 (03-02-2017)

Identifiants

  • HAL Id : hal-01455763 , version 1

Citer

Guillaume Chiron, Jean-Philippe Moreux, Antoine Doucet, Mickaël Coustaty, Muriel Visani. Erreurs OCR et biais d'indexation : impact sur les usages. 17ème conférence Extraction et Gestion des Connaissances, Atelier Journalisme Computationnel, Jan 2017, Grenoble, France. pp.69-73. ⟨hal-01455763⟩
264 Consultations
290 Téléchargements

Partager

Gmail Facebook X LinkedIn More