Un systeme generique d'extraction d'information dans des documents manuscrits non-contraints - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Un systeme generique d'extraction d'information dans des documents manuscrits non-contraints

Résumé

Dans cet article, un système d'extraction d'information par analyseur statistique de surface dans des documents manuscrits faiblement contraints est introduit. Contrairement aux principales approches de la littérature que sont le keyword spotting et la reconnaissance complète de documents, l'originalité du système mis en oeuvre réside dans l'attention portée à la modélisation globale de l'écriture. En effet, la ligne de texte est considérée comme une entité indivisible et est modélisée de manière duale à l'aide de modèles de Markov cachés. Ainsi, une analyse surfacique de l'écriture permet d'isoler rapidement l'information pertinente recherchée dans un texte quelconque et ce, en une seule passe. Les premiers résultats sont encourageants et illustrent le potentiel de l'approche en terme d'extraction d'information.
Fichier principal
Vignette du fichier
ThomasimCifed2010.pdf (213.53 Ko) Télécharger le fichier
Origine : Accord explicite pour ce dépôt
Loading...

Dates et versions

hal-00488277 , version 1 (01-06-2010)

Identifiants

  • HAL Id : hal-00488277 , version 1

Citer

S. Thomas, T. Paquet, L. Heutte, C. Chatelain. Un systeme generique d'extraction d'information dans des documents manuscrits non-contraints. Colloque International Francophone sur l'Ecrit et le Document (CIFED2010), Mar 2010, Tunisie. pp.12. ⟨hal-00488277⟩
123 Consultations
88 Téléchargements

Partager

Gmail Facebook X LinkedIn More