Analyse de classes de formes pour la transcription de textes imprimés anciens - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Analyse de classes de formes pour la transcription de textes imprimés anciens

Résumé

Ce travail se situe dans le contexte de la numérisation et de l'indexation de documents imprimés anciens. Il décrit un logiciel intitulé Retro, permettant de transcrire semi automatiquement les zones de texte préalablement localisées et extraites à l'aide d'un autre logiciel nommé Agora. Agora réalise simultanément l'analyse de structure des pages et une extraction de toutes les composantes connexes présentes dans chaque page. Une classification non-supervisée de ces composantes connexes est effectuée et conduit à la création de classes regroupant des composantes semblables. Nous proposons dans cet article une étude, puis une exploitation des classes issues d'Agora pour obtenir une transcription du texte (OCR). Nous présentons une analyse statistique et qualitative des classes produites, avant de proposer une méthode de fusion des classes basées sur l'étude de leur relation de voisinage qui nous permet d'étiqueter rapidement 60% des caractères d'un ouvrage sans utiliser de méthode couteuse en temps de calcul.
Fichier principal
Vignette du fichier
cifed2010_submission_42.pdf (504.68 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00492179 , version 1 (15-06-2010)

Identifiants

  • HAL Id : hal-00492179 , version 1

Citer

S. Hocquet, Jean-Yves Ramel. Analyse de classes de formes pour la transcription de textes imprimés anciens. Colloque International Francophone sur l'Ecrit et le Document (CIFED2010), Mar 2010, Sousse, Tunisie. pp.451-464. ⟨hal-00492179⟩
85 Consultations
80 Téléchargements

Partager

Gmail Facebook X LinkedIn More