Apprentissage de conversion de documents semi-structures a partir d’exemples

Abstract : Une majorité de travaux de Recherche d’Information dans les collections de documents semi-structurés se focalise sur le traitement de bases homogènes et ne sont pas utilisables sur des corpus de documents hétérogènes issus du Web par exemple. Nous présentons ici la méthode ISM (Incremental Structure Mapping) permettant la conversion de documents XML issus de sources hétérogènes dans un schéma de médiation. ISM est centrée document et permet la prise en compte simultanée de la structure et du contenu des documents. Elle ne nécessite pas de spécifier des correspondances entre schéma manuellement et utilise des méthodes d’apprentissage automatique, l’utilisateur n’ayant qu’à fournir au système un ensemble de documents exprimés conjointement dans leur schéma initial et dans le schéma de destination. Contrairement aux méthodes existantes, ISM possède une complexité très faible et permet de traiter de grands corpus de documents. Les résultats des expériences sur différents corpus montrent que l’algorithme est capable d’apprendre des transformations complexes, notamment pour la tâche de conversion du format HTML vers un format XML sémantiquement riche.
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01357578
Contributor : Ludovic Denoyer <>
Submitted on : Tuesday, August 30, 2016 - 10:17:20 AM
Last modification on : Thursday, March 21, 2019 - 2:18:59 PM

Identifiers

  • HAL Id : hal-01357578, version 1

Citation

Francis Maes, Ludovic Denoyer, Patrick Gallinari. Apprentissage de conversion de documents semi-structures a partir d’exemples. CORIA 2008 - Conférence en Recherche d'Informations et Applications, Mar 2008, Tregastel, France. pp.181-196. ⟨hal-01357578⟩

Share

Metrics

Record views

123