48 articles  [version française]
HAL: hal-00134735, version 1

Detailed view  Export this paper
(2006)
XCDF : Un format canonique pour la représentation de documents
Jean-Luc Bloechle 1, Maurizio Rigamonti 1, Denis Lalanne 1, Rolf Ingold 1
(2006-09-18)

Accéder au contenu structuré d'un document PDF est une tâche complexe dépendante de méthodes de pré-traitement et de rétro-ingénierie. Cet article décrit le format canonique XCDF utilisé pour la représentation des résultats d'extraction et d'analyse des structures physiques de documents PDF. Ce format est positionné par rapport aux autres recherches, puis détaillé d'un point de vue théorique. XED, l'outil réalisant la transformation de fichiers PDF vers le format XCDF est ensuite brièvement présenté. L'intérêt de XCDF est finalement illustré à l'aide de plusieurs exemples d'applications concrètes mettant en évidence son rôle central lors d'analyses de plus haut niveau.
1:  Université de Fribourg
Université de Fribourg
Computer Science/Document and Text Processing

Engineering Sciences/Signal and Image processing

Computer Science/Signal and Image Processing
Attached file list to this document: 
PDF
article_54f.pdf(1.2 MB)