Erreurs OCR et biais d'indexation : impact sur les usages

Guillaume Chiron; Jean-Philippe Moreux; Antoine Doucet; Mickaël Coustaty; Muriel Visani

Communication Dans Un Congrès Année : 2017

Erreurs OCR et biais d'indexation : impact sur les usages

(1) , (1) , (2) , (2) , (2)

1
2

Guillaume Chiron

Fonction : Auteur
PersonId : 744676
IdHAL : guillaume-chiron
IdRef : 189106689

Bibliothèque nationale de France

Jean-Philippe Moreux

Fonction : Auteur
PersonId : 19192
IdHAL : jean-philippe-moreux

Bibliothèque nationale de France

Antoine Doucet

Fonction : Auteur
PersonId : 7183
IdHAL : antoine-doucet
ORCID : 0000-0001-6160-3356
IdRef : 10312604X

Laboratoire Informatique, Image et Interaction - EA 2118

Mickaël Coustaty

Fonction : Auteur
PersonId : 2462
IdHAL : mickael-coustaty
ORCID : 0000-0002-0123-439X
IdRef : 160560268

Laboratoire Informatique, Image et Interaction - EA 2118

Muriel Visani

Fonction : Auteur
PersonId : 864965

Laboratoire Informatique, Image et Interaction - EA 2118

Résumé

Les méthodes d'analyse classiquement appliquées dans le contexte du Big Data, provoquent souvent un phénomène de « boîte noire » où la qualité de numérisation des documents peut être un paramètre négligé. En dépit des bonnes pratiques en vigueur inhérentes au métier de data-journalist, se pose la problématique des biais statistiques induits par ce manque de transparence sur la fiabilité des sources. S'inscrivant dans le cadre du projet AméliOCR, cet article vise à estimer ces potentiels biais sur l'indexation et la recherche. Cette étude s'appuie sur un corpus de documents OCéRisés associés à leur vérité terrain, ainsi que sur des historiques de recherche sur Gallica.

Mots clés

erreurs OCR biais d'indexation bibliothèque digitales

Domaines

Traitement du texte et du document

Fichier principal

EGC_2017_paper_160 (9).pdf (472.32 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Guillaume Chiron : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01455763

Soumis le : vendredi 3 février 2017-18:09:12

Dernière modification le : jeudi 12 mai 2022-15:37:27

Archivage à long terme le : vendredi 5 mai 2017-13:06:18

Dates et versions

hal-01455763 , version 1 (03-02-2017)

Identifiants

HAL Id : hal-01455763 , version 1

Citer

Guillaume Chiron, Jean-Philippe Moreux, Antoine Doucet, Mickaël Coustaty, Muriel Visani. Erreurs OCR et biais d'indexation : impact sur les usages. 17ème conférence Extraction et Gestion des Connaissances, Atelier Journalisme Computationnel, Jan 2017, Grenoble, France. pp.69-73. ⟨hal-01455763⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

BNF L3I UNIV-ROCHELLE

264 Consultations

290 Téléchargements

Erreurs OCR et biais d'indexation : impact sur les usages

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager