Rapport Evaluation des OCR
Résumé
De nos jours, nous utilisons énormément de documents papier (de type administratif, rapport, publicité...). Le développement important de l’informatique a créé le besoin de dématérialiser les informations contenues dans ces documents afin de pouvoir les classifier et les analyser. On trouve aujourd’hui une large variété de systèmes ayant des objectifs bien définis, comme la segmentation de lignes manuscrites en mots ou la reconnaissance de mots. Un système de reconnaissance de documents a pour objectif de transformer un document physique en document numérique. Par exemple, on peut vouloir effectuer des recherches de contenus ou traiter les informations contenues dans ces documents, d’où l’intérêt d’extraire leur contenu. Dans le cas des documents image de type imprimés, on trouve une catégorie de systèmes permettant d'extraire le contenu et la mise en page : les OCR (Optical Character Recognition). Avec le développement de ces systèmes, est venu le besoin de les évaluer. Lorsqu'on parle d'évaluation, on peut se poser trois questions : Quels sont les aspects évaluables ? Quelles sont les contraintes à respecter ? Comment évaluer ces aspects ? Nous allons voir dans la première section les aspects évaluables des OCR puis nous verrons en seconde section, les contraintes imposées. Enfin le reste du rapport tentera, après un état de l'art, d'apporter une réponse à la troisième question : comment les évaluer ?
Origine : Fichiers produits par l'(les) auteur(s)
Loading...