Modélisation et classification pour la rétroconversion des documents - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2000

Modélisation et classification pour la rétroconversion des documents

Résumé

Dans cet article, nous présentons une modélisation des documents orientée vers le processus de rétroconversion des documents papier vers un format électronique. Nous présentons également les méthodes de classification exploitant la modélisation des documents proposée. Ces méthodes de classification sont, pour les unes, utilisées pour effectuer la classification des éléments composant le document, pour les autres, utilisées dans la classification des documents eux− mêmes. Ces méthodes de classification sont combinées de façon à s'intégrer dans une stratégie globale de rétroconversion. Cette stratégie est basée sur un cycle d'interprétation au cours duquel différents niveaux d'interprétation interagissent. Ce cycle, appelé « cycle d'interprétation », est articulé autour de l'analyse et de la résolution d'incohérences dans la description des documents. Les premiers résultats concernant aussi bien la classification des objets constitutifs des documents que celle des documents eux−mêmes mettent en valeur l'utilisation du cycle d'interprétation. Mots Clés : rétroconversion des documents, modélisation des documents, classification structurelle, cycle d'interprétation. 1. INTRODUCTION Cet article traite de la rétroconversion des documents papier vers un format électronique. La rétroconversion consiste à construire une représentation des documents selon un formalisme précis, à partir de l'image du document. L'intérêt porté à la rétroconversion des documents se justifie par le fait qu'elle permet de faire bénéficier les documents papier des avantages offerts par les représentations électroniques de haut niveau. En particulier, les documents ainsi convertis pourront être diffusés à une large échelle via les réseaux numériques. Ils pourront également être édités ou mis à jour plus aisément à l'aide de logiciels adaptés. Enfin, ils pourront être archivés sur support magnétique et indexés aussi bien sur leur aspect visuel que sur leur contenu textuel. Le formalisme utilisé dans le processus de rétroconversion doit être aussi complet que possible de façon à ce que la représentation du document ainsi interprété puisse être facilement traduite vers un format électronique adéquat. D'autre part, ce formalisme utilisé pour construire la représentation des documents doit être adapté au processus de rétroconversion. En effet, il doit
Fichier principal
Vignette du fichier
cifed00.pdf (3.1 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01249445 , version 1 (04-01-2016)

Identifiants

  • HAL Id : hal-01249445 , version 1

Citer

Pierre Héroux, Éric Trupin, Yves Lecourtier. Modélisation et classification pour la rétroconversion des documents. Colloque International Francophone sur l'Ecrit et le Document, 2000, Lyon, France. pp.413-421. ⟨hal-01249445⟩
41 Consultations
64 Téléchargements

Partager

Gmail Facebook X LinkedIn More