Un systeme generique d'extraction d'information dans des documents manuscrits non-contraints
Résumé
Dans cet article, un système d'extraction d'information par analyseur statistique de surface dans des documents manuscrits faiblement contraints est introduit. Contrairement aux principales approches de la littérature que sont le keyword spotting et la reconnaissance complète de documents, l'originalité du système mis en oeuvre réside dans l'attention portée à la modélisation globale de l'écriture. En effet, la ligne de texte est considérée comme une entité indivisible et est modélisée de manière duale à l'aide de modèles de Markov cachés. Ainsi, une analyse surfacique de l'écriture permet d'isoler rapidement l'information pertinente recherchée dans un texte quelconque et ce, en une seule passe. Les premiers résultats sont encourageants et illustrent le potentiel de l'approche en terme d'extraction d'information.
Domaines
Traitement du texte et du document
Origine : Accord explicite pour ce dépôt
Loading...