Erreurs OCR et biais d'indexation : impact sur les usages
Résumé
Les méthodes d'analyse classiquement appliquées dans le contexte du Big Data, provoquent souvent un phénomène de « boîte noire » où la qualité de numérisation des documents peut être un paramètre négligé. En dépit des bonnes pratiques en vigueur inhérentes au métier de data-journalist, se pose la problématique des biais statistiques induits par ce manque de transparence sur la fiabilité des sources. S'inscrivant dans le cadre du projet AméliOCR, cet article vise à estimer ces potentiels biais sur l'indexation et la recherche. Cette étude s'appuie sur un corpus de documents OCéRisés associés à leur vérité terrain, ainsi que sur des historiques de recherche sur Gallica.
Domaines
Traitement du texte et du document
Origine : Fichiers produits par l'(les) auteur(s)
Loading...