Une methode dirigée par la syntaxe pour l'extraction de champs numériques dans les courriers entrants - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Traitement du Signal Année : 2006

Une methode dirigée par la syntaxe pour l'extraction de champs numériques dans les courriers entrants

Résumé

Dans cet article, nous présentons une méthode générique d'extraction et de reconnaissance de champs numériques (numéro de téléphone, code postal, etc.) dans des courriers manuscrits non contraints. La méthode d'extraction exploite la syntaxe des champs comme information a priori pour les localiser. Un analyseur syntaxique à base de modèles de Markov filtre les séquences de composantes qui respectent la syntaxe d'un type de champ connu du système. Notre approche permet ainsi d'éviter la reconnaissance totale du document, opération délicate et coûteuse en temps de calcul, puisque seuls les champs localisés sont soumis à un système de reconnaissance. Nous montrons l'efficacité de la méthode sur une base de courriers manuscrits réels de type courrier entrant.
Fichier principal
Vignette du fichier
ts_chatelain.pdf (1.14 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00435958 , version 1 (25-11-2009)

Identifiants

  • HAL Id : hal-00435958 , version 1

Citer

Clément Chatelain, Guillaume Koch, Laurent Heutte, Thierry Paquet. Une methode dirigée par la syntaxe pour l'extraction de champs numériques dans les courriers entrants. Traitement du Signal, 2006, 23 (2), pp.179-198. ⟨hal-00435958⟩
38 Consultations
81 Téléchargements

Partager

Gmail Facebook X LinkedIn More