Contributions au tri automatique de documents et de courrier d'entreprises

Djamel Gaceb 1
1 imagine - Extraction de Caractéristiques et Identification
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
Résumé : Ce travail de thèse s’inscrit dans le cadre du développement de systèmes de vision industrielle pour le tri automatique de documents et de courriers d’entreprises. Les architectures existantes, dont nous avons balayé les spécificités dans les trois premiers chapitres de la thèse, présentent des faiblesses qui se traduisent par des erreurs de lecture et des rejets que l’on impute encore trop souvent aux OCR. Or, les étapes responsables de ces rejets et de ces erreurs de lecture sont les premières à intervenir dans le processus. Nous avons ainsi choisi de porter notre contribution sur les aspects inhérents à la segmentation des images de courriers et la localisation de leurs régions d’intérêt en investissant une nouvelle approche pyramidale de modélisation par coloration hiérarchique de graphes ; à ce jour, la coloration de graphes n’a jamais été exploitée dans un tel contexte. Elle intervient dans notre contribution à toutes les étapes d’analyse de la structure des documents ainsi que dans la prise de décision pour la reconnaissance (reconnaissance de la nature du document à traiter et reconnaissance du bloc adresse). Notre architecture a été conçue pour réaliser essentiellement les étapes d’analyse de structures et de reconnaissance en garantissant une réelle coopération entres les différents modules d’analyse et de décision. Elle s’articule autour de trois grandes parties : une partie de segmentation bas niveau (binarisation et recherche de connexités), une partie d’extraction de la structure physique par coloration hiérarchique de graphe et une partie de localisation de blocs adresse et de classification de documents. Les algorithmes impliqués dans le système ont été conçus pour leur rapidité d’exécution (en adéquation avec les contraintes de temps réels), leur robustesse, et leur compatibilité. Les expérimentations réalisées dans ce contexte sont très encourageantes et offrent également de nouvelles perspectives à une plus grande diversité d’images de documents.
Type de document :
Pré-publication, Document de travail
4564; T. 2009
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01462029
Contributeur : Équipe Gestionnaire Des Publications Si Liris <>
Soumis le : mercredi 8 février 2017 - 15:49:46
Dernière modification le : vendredi 10 février 2017 - 01:12:20

Identifiants

  • HAL Id : hal-01462029, version 1

Collections

Citation

Djamel Gaceb. Contributions au tri automatique de documents et de courrier d'entreprises. 4564; T. 2009. 〈hal-01462029〉

Partager

Métriques

Consultations de la notice

222