Segmentation non supervisée d'images de document en paragraphes - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Segmentation non supervisée d'images de document en paragraphes

Résumé

Dans cet article, nous présentons une méthode de segmentation des images de documents dont la finalité est le découpage des images en paragraphes. Nous proposons une chaîne complète, basée sur l'application récursive de différents traitements et algorithmes de segmentation connus comme X-Y cut(Nagy et al., 1984) et l'analyse des rectangles blancs maximaux(Breuel, 2002). L'ensemble de la chaîne de traitement, ainsi que le paramétrage de chacun des algorithmes est guidé par des statistiques calculées sur l'image ou les blocs en cours de traitement. Ainsi, nous nous affranchissons totalement de l'étape de réglage des paramètres, que ce soit par une estimation manuelle ou automatique sur une base de validation. Enfin, nous proposons un système original et facilement extensible pour la détection de différent types de mise en page de paragraphes. Nous extrayons donc non seulement la segmentation physique du document en paragraphes, mais aussi des informations sur la mise en page de chacun des paragraphes extraits. Nous illustrons les performances de notre algorithme sur la base de d'images complexe de documents historiques utilisée lors de la compétition ICDAR2011.
Fichier principal
Vignette du fichier
document.pdf (1.76 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00709221 , version 1 (18-06-2012)

Identifiants

  • HAL Id : hal-00709221 , version 1

Citer

Remi Vieux, Jean-Philippe Domenger. Segmentation non supervisée d'images de document en paragraphes. Colloque International Francophone sur l'Écrit et le Document, Mar 2012, Bordeaux, France. pp.415-430. ⟨hal-00709221⟩

Collections

CNRS
107 Consultations
450 Téléchargements

Partager

Gmail Facebook X LinkedIn More