| Colloque International Francophone sur l'Ecrit et le Document (CIFED'06) | ![]() |
| HAL: hal-00134735, version 1 |
| Detailed view | Export this paper |
|
|
| (2006) |
|
|
|
|
| XCDF : Un format canonique pour la représentation de documents |
|
|
| Jean-Luc Bloechle 1Maurizio Rigamonti 1 |
|
|
| (2006-09-18) |
|
|
| Accéder au contenu structuré d'un document PDF est une tâche complexe dépendante de méthodes de pré-traitement et de rétro-ingénierie. Cet article décrit le format canonique XCDF utilisé pour la représentation des résultats d'extraction et d'analyse des structures physiques de documents PDF. Ce format est positionné par rapport aux autres recherches, puis détaillé d'un point de vue théorique. XED, l'outil réalisant la transformation de fichiers PDF vers le format XCDF est ensuite brièvement présenté. L'intérêt de XCDF est finalement illustré à l'aide de plusieurs exemples d'applications concrètes mettant en évidence son rôle central lors d'analyses de plus haut niveau. |
|
|
|
|
|
|
|
|
|
|
| 1: | Université de Fribourg |
| Université de Fribourg | |
|
|
|
|
|
|
|
|
| Subject | : | Computer Science/Document and Text Processing Engineering Sciences/Signal and Image processing Computer Science/Signal and Image Processing |
|
|
| Attached file list to this document: | |||||
|
|
|
| hal-00134735, version 1 | |
| http://hal.archives-ouvertes.fr/hal-00134735 | |
| oai:hal.archives-ouvertes.fr:hal-00134735 | |
| From: Laurence Likforman-Sulem | |
| Submitted on: Monday, 5 March 2007 11:32:51 | |
| Updated on: Monday, 5 March 2007 11:36:38 | |