Recherche de mots dans des images de documents par appariement de caractères

K. Khurshid; C. Faure; N. Vincent

Communication Dans Un Congrès Année : 2008

Recherche de mots dans des images de documents par appariement de caractères

(1) , (2) , (1)

1
2

K. Khurshid

Fonction : Auteur

Centre de Recherche en Informatique de Paris 5

C. Faure

Fonction : Auteur

Département Réseaux, Sécurité et Multimédia

N. Vincent

Fonction : Auteur

Centre de Recherche en Informatique de Paris 5

Résumé

Repérer des mots ("word spotting") dans les documents imprimés anciens est une tâche extrêmement difficile. Les méthodes classiques, comme la corrélation, échouent quand elles sont appliquées sur les documents anciens. Ainsi pour résoudre ce problème, nous avons défini un mécanisme multipas d'analyse de document qui repose principalement sur l'extraction des mots et la caractérisation des caractères par une représentation multidimensionnelle. Les mots sont appariés à un modèle de mot en comparant les représentations multidimensionnelles des caractères qui les composent par un algorithme de "dynamic time warping" (DTW). Nous avons expérimenté cette approche sur des documents du XIXème siècle, imprimés sur des presses mécaniques, de la BIUM (Bibliothèque Interuniversitaire de Médecine, Paris). Nos premières expériences montrent des résultats extrêmement encourageants ayant une précision de 95% avec un taux de rappel de 89%.

Mots clés

RLSA Word-spotting dynamic time warping représentations des caractères RLSA.

Domaines

Traitement du texte et du document Vision par ordinateur et reconnaissance de formes [cs.CV] Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Fichier principal

paper-20.pdf (1.56 Mo)

Origine : Accord explicite pour ce dépôt

Sébastien Adam : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00334401

Soumis le : dimanche 26 octobre 2008-01:33:43

Dernière modification le : mardi 28 février 2023-15:36:22

Archivage à long terme le : lundi 7 juin 2010-21:53:29

Dates et versions

hal-00334401 , version 1 (26-10-2008)

Identifiants

HAL Id : hal-00334401 , version 1

Citer

K. Khurshid, C. Faure, N. Vincent. Recherche de mots dans des images de documents par appariement de caractères. Colloque International Francophone sur l'Ecrit et le Document, Oct 2008, France. pp.91-96. ⟨hal-00334401⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM CIFED08

123 Consultations

613 Téléchargements

Recherche de mots dans des images de documents par appariement de caractères

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager