Recherche de mots dans des images de documents par appariement de caractères - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2008

Recherche de mots dans des images de documents par appariement de caractères

Résumé

Repérer des mots ("word spotting") dans les documents imprimés anciens est une tâche extrêmement difficile. Les méthodes classiques, comme la corrélation, échouent quand elles sont appliquées sur les documents anciens. Ainsi pour résoudre ce problème, nous avons défini un mécanisme multipas d'analyse de document qui repose principalement sur l'extraction des mots et la caractérisation des caractères par une représentation multidimensionnelle. Les mots sont appariés à un modèle de mot en comparant les représentations multidimensionnelles des caractères qui les composent par un algorithme de "dynamic time warping" (DTW). Nous avons expérimenté cette approche sur des documents du XIXème siècle, imprimés sur des presses mécaniques, de la BIUM (Bibliothèque Interuniversitaire de Médecine, Paris). Nos premières expériences montrent des résultats extrêmement encourageants ayant une précision de 95% avec un taux de rappel de 89%.
Fichier principal
Vignette du fichier
paper-20.pdf (1.56 Mo) Télécharger le fichier
Origine : Accord explicite pour ce dépôt
Loading...

Dates et versions

hal-00334401 , version 1 (26-10-2008)

Identifiants

  • HAL Id : hal-00334401 , version 1

Citer

K. Khurshid, C. Faure, N. Vincent. Recherche de mots dans des images de documents par appariement de caractères. Colloque International Francophone sur l'Ecrit et le Document, Oct 2008, France. pp.91-96. ⟨hal-00334401⟩
123 Consultations
613 Téléchargements

Partager

Gmail Facebook X LinkedIn More