Un systeme generique d'extraction d'information dans des documents manuscrits non-contraints

Dans cet article, un système d'extraction d'information par analyseur statistique de surface dans des documents manuscrits faiblement contraints est introduit. Contrairement aux principales approches de la littérature que sont le keyword spotting et la reconnaissance complète de documents, l'originalité du système mis en oeuvre réside dans l'attention portée à la modélisation globale de l'écriture. En effet, la ligne de texte est considérée comme une entité indivisible et est modélisée de manière duale à l'aide de modèles de Markov cachés. Ainsi, une analyse surfacique de l'écriture permet d'isoler rapidement l'information pertinente recherchée dans un texte quelconque et ce, en une seule passe. Les premiers résultats sont encourageants et illustrent le potentiel de l'approche en terme d'extraction d'information.

Domaines

Traitement du texte et du document

Fichier principal

ThomasimCifed2010.pdf (213.53 Ko)

Origine : Accord explicite pour ce dépôt

Clément Chatelain : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00488277

Soumis le : mardi 1 juin 2010-16:20:34

Dernière modification le : vendredi 22 décembre 2023-15:16:05

Archivage à long terme le : vendredi 17 septembre 2010-11:14:39

Dates et versions

hal-00488277 , version 1 (01-06-2010)

Identifiants

HAL Id : hal-00488277 , version 1

Citer

S. Thomas, T. Paquet, L. Heutte, C. Chatelain. Un systeme generique d'extraction d'information dans des documents manuscrits non-contraints. Colloque International Francophone sur l'Ecrit et le Document (CIFED2010), Mar 2010, Tunisie. pp.12. ⟨hal-00488277⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSA-ROUEN LITIS COMUE-NORMANDIE UNIROUEN UNILEHAVRE INSA-GROUPE

123 Consultations

88 Téléchargements