Modélisation et classification pour la rétroconversion des documents

Résumé : Dans cet article, nous présentons une modélisation des documents orientée vers le processus de rétroconversion des documents papier vers un format électronique. Nous présentons également les méthodes de classification exploitant la modélisation des documents proposée. Ces méthodes de classification sont, pour les unes, utilisées pour effectuer la classification des éléments composant le document, pour les autres, utilisées dans la classification des documents eux− mêmes. Ces méthodes de classification sont combinées de façon à s'intégrer dans une stratégie globale de rétroconversion. Cette stratégie est basée sur un cycle d'interprétation au cours duquel différents niveaux d'interprétation interagissent. Ce cycle, appelé « cycle d'interprétation », est articulé autour de l'analyse et de la résolution d'incohérences dans la description des documents. Les premiers résultats concernant aussi bien la classification des objets constitutifs des documents que celle des documents eux−mêmes mettent en valeur l'utilisation du cycle d'interprétation. Mots Clés : rétroconversion des documents, modélisation des documents, classification structurelle, cycle d'interprétation. 1. INTRODUCTION Cet article traite de la rétroconversion des documents papier vers un format électronique. La rétroconversion consiste à construire une représentation des documents selon un formalisme précis, à partir de l'image du document. L'intérêt porté à la rétroconversion des documents se justifie par le fait qu'elle permet de faire bénéficier les documents papier des avantages offerts par les représentations électroniques de haut niveau. En particulier, les documents ainsi convertis pourront être diffusés à une large échelle via les réseaux numériques. Ils pourront également être édités ou mis à jour plus aisément à l'aide de logiciels adaptés. Enfin, ils pourront être archivés sur support magnétique et indexés aussi bien sur leur aspect visuel que sur leur contenu textuel. Le formalisme utilisé dans le processus de rétroconversion doit être aussi complet que possible de façon à ce que la représentation du document ainsi interprété puisse être facilement traduite vers un format électronique adéquat. D'autre part, ce formalisme utilisé pour construire la représentation des documents doit être adapté au processus de rétroconversion. En effet, il doit
Type de document :
Communication dans un congrès
Colloque International Francophone sur l'Ecrit et le Document, 2000, Lyon, France. Actes du Colloque International Francophone sur l'Ecrit et le Document, pp.413-421, 2000
Liste complète des métadonnées

Littérature citée [5 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01249445
Contributeur : Pierre Héroux <>
Soumis le : lundi 4 janvier 2016 - 10:09:05
Dernière modification le : mercredi 11 octobre 2017 - 11:18:01
Document(s) archivé(s) le : jeudi 7 avril 2016 - 17:00:32

Fichier

cifed00.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01249445, version 1

Collections

Citation

Pierre Héroux, Éric Trupin, Yves Lecourtier. Modélisation et classification pour la rétroconversion des documents. Colloque International Francophone sur l'Ecrit et le Document, 2000, Lyon, France. Actes du Colloque International Francophone sur l'Ecrit et le Document, pp.413-421, 2000. 〈hal-01249445〉

Partager

Métriques

Consultations de
la notice

26

Téléchargements du document

64