Discrimination chiffre/rejet pour l'extraction de champs numriques dans des documents manuscrits - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2006

Discrimination chiffre/rejet pour l'extraction de champs numriques dans des documents manuscrits

Résumé

Dans cet article, nous proposons une méthode pour l'extraction automatique de champs numériques dans des documents manuscrits non contraints. Le système repose sur une stratégie de segmentation-reconnaissance suivie d'une analyse syntaxique des lignes de texte afin de détecter les séquences constituant un champ numérique. Nous nous intéressons plus particulièrement au classifieur chiffre sur lequel repose la stratégie de segmentation-reconnaissance, et à ses capacités de rejet vis-à-vis des composantes non numériques : mots, fragments de mots, bruit, etc. Pour cela, une méthode de rejet en deux étapes est proposée : une première étape rapide est chargée de rejeter ce que nous appelons les "rejets évidents" ; la seconde étape repose sur l'analyse des confiances d'un classifieur chiffre "classique" pour distinguer les composantes numériques du reste du document. Nous montrons l'influence de la stratégie de rejet sur les résultats du système.
Fichier principal
Vignette du fichier
cifed2006.pdf (539.22 Ko) Télécharger le fichier
Loading...

Dates et versions

hal-00113991 , version 1 (15-11-2006)

Identifiants

  • HAL Id : hal-00113991 , version 1

Citer

Clément Chatelain, Laurent Heutte, Thierry Paquet. Discrimination chiffre/rejet pour l'extraction de champs numriques dans des documents manuscrits. CIFED 2010, Sep 2006, France. pp.55-60. ⟨hal-00113991⟩
40 Consultations
42 Téléchargements

Partager

Gmail Facebook X LinkedIn More