Discrimination chiffre/rejet pour l'extraction de champs numriques dans des documents manuscrits

Clément Chatelain; Laurent Heutte; Thierry Paquet

Communication Dans Un Congrès Année : 2006

Discrimination chiffre/rejet pour l'extraction de champs numriques dans des documents manuscrits

(1) , (1) , (1)

Clément Chatelain

Fonction : Auteur
PersonId : 178
IdHAL : clement-chatelain
ORCID : 0000-0001-8377-0630
IdRef : 131504835

Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes

Laurent Heutte

Fonction : Auteur
PersonId : 171701
IdHAL : laurent-heutte
ORCID : 0000-0003-4740-9770
IdRef : 143005863

Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes

Thierry Paquet

Fonction : Auteur
PersonId : 16353
IdHAL : thierry-paquet
ORCID : 0000-0002-2044-7542
IdRef : 068943229

Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes

Résumé

Dans cet article, nous proposons une méthode pour l'extraction automatique de champs numériques dans des documents manuscrits non contraints. Le système repose sur une stratégie de segmentation-reconnaissance suivie d'une analyse syntaxique des lignes de texte afin de détecter les séquences constituant un champ numérique. Nous nous intéressons plus particulièrement au classifieur chiffre sur lequel repose la stratégie de segmentation-reconnaissance, et à ses capacités de rejet vis-à-vis des composantes non numériques : mots, fragments de mots, bruit, etc. Pour cela, une méthode de rejet en deux étapes est proposée : une première étape rapide est chargée de rejeter ce que nous appelons les "rejets évidents" ; la seconde étape repose sur l'analyse des confiances d'un classifieur chiffre "classique" pour distinguer les composantes numériques du reste du document. Nous montrons l'influence de la stratégie de rejet sur les résultats du système.

Domaines

Traitement du texte et du document Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Fichier principal

cifed2006.pdf (539.22 Ko)

Clément Chatelain : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00113991

Soumis le : mercredi 15 novembre 2006-11:15:55

Dernière modification le : vendredi 22 décembre 2023-15:16:05

Archivage à long terme le : mardi 6 avril 2010-18:43:54

Dates et versions

hal-00113991 , version 1 (15-11-2006)

Identifiants

HAL Id : hal-00113991 , version 1

Citer

Clément Chatelain, Laurent Heutte, Thierry Paquet. Discrimination chiffre/rejet pour l'extraction de champs numriques dans des documents manuscrits. CIFED 2010, Sep 2006, France. pp.55-60. ⟨hal-00113991⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSA-ROUEN CIFED06 LITIS COMUE-NORMANDIE UNIROUEN UNILEHAVRE INSA-GROUPE

40 Consultations

42 Téléchargements

Discrimination chiffre/rejet pour l'extraction de champs numriques dans des documents manuscrits

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager