Recherche de mots dans des images de documents par appariement de caractères
Résumé
Repérer des mots ("word spotting") dans les documents imprimés anciens est une tâche extrêmement difficile. Les méthodes classiques, comme la corrélation, échouent quand elles sont appliquées sur les documents anciens. Ainsi pour résoudre ce problème, nous avons défini un mécanisme multipas d'analyse de document qui repose principalement sur l'extraction des mots et la caractérisation des caractères par une représentation multidimensionnelle. Les mots sont appariés à un modèle de mot en comparant les représentations multidimensionnelles des caractères qui les composent par un algorithme de "dynamic time warping" (DTW). Nous avons expérimenté cette approche sur des documents du XIXème siècle, imprimés sur des presses mécaniques, de la BIUM (Bibliothèque Interuniversitaire de Médecine, Paris). Nos premières expériences montrent des résultats extrêmement encourageants ayant une précision de 95% avec un taux de rappel de 89%.
Origine : Accord explicite pour ce dépôt
Loading...