Génération d'images semi-synthétiques de documents anciens.
Résumé
Cet article présente un logiciel de génération d'images semi-synthétiques de documents anciens et de la vérité terrain associée. Ce travail s'inscrit dans le cadre de la génération de données pour l'évaluation de performances d'algorithmes d'analyse d'images de documents. Ce logiciel permet à un utilisateur de spécifier le contenu et la mise en page des images à générer (choix des fontes, illustrations, interlignes). Plusieurs modèles de dégradations ont été intégrés dans ce logiciel. Il est ainsi possible de générer des images contenant les défauts les plus couramment observés dans les ouvrages anciens (transparence, dégradation des caractères et pliures d'une page). En générant une grande variété de documents, il est ainsi possible d'évaluer la robustesse d'un algorithme vis-à-vis de ces dégradations. ABSTRACT. This paper presents a software dedicated to semisynthetic old document image generation and its associated ground truth. This work is thus part of the data generation for document processing algorithm performance evaluation. This software allows a user to specify the content and layout of images to generate (fonts, illustrations, line spacing). Several degradation models were incorporated into the software. It is thus possible to generate images containing defects most commonly seen in old books (ink transparency, character degradation). By generating a huge variety of documents, it is possible to assess the robustness of an algorithm according to these degradations.