Une methode dirigée par la syntaxe pour l'extraction de champs numériques dans les courriers entrants

Dans cet article, nous présentons une méthode générique d'extraction et de reconnaissance de champs numériques (numéro de téléphone, code postal, etc.) dans des courriers manuscrits non contraints. La méthode d'extraction exploite la syntaxe des champs comme information a priori pour les localiser. Un analyseur syntaxique à base de modèles de Markov filtre les séquences de composantes qui respectent la syntaxe d'un type de champ connu du système. Notre approche permet ainsi d'éviter la reconnaissance totale du document, opération délicate et coûteuse en temps de calcul, puisque seuls les champs localisés sont soumis à un système de reconnaissance. Nous montrons l'efficacité de la méthode sur une base de courriers manuscrits réels de type courrier entrant.

Domaines

Traitement du texte et du document

Fichier principal

ts_chatelain.pdf (1.14 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Clément Chatelain : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00435958

Soumis le : mercredi 25 novembre 2009-14:49:55

Dernière modification le : mercredi 27 mars 2024-08:22:41

Archivage à long terme le : jeudi 17 juin 2010-22:02:37

Dates et versions

hal-00435958 , version 1 (25-11-2009)

Identifiants

HAL Id : hal-00435958 , version 1

Citer

Clément Chatelain, Guillaume Koch, Laurent Heutte, Thierry Paquet. Une methode dirigée par la syntaxe pour l'extraction de champs numériques dans les courriers entrants. Traitement du Signal, 2006, 23 (2), pp.179-198. ⟨hal-00435958⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSA-ROUEN LITIS COMUE-NORMANDIE UNIROUEN UNILEHAVRE INSA-GROUPE

38 Consultations

81 Téléchargements