Restructuration automatique de documents dans les corpus semi structurés hétérogènes

Abstract : L'interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consiste à transformer des documents semi-structurés issus de diverses sources dans un schéma de médiation connu. Nous proposons un cadre statistique général à la problématique de la restructuration de documents et détaillons une instance d'un modèle stochastique de documents structurés appliquée à cette problématique. Nous détaillons enfin un ensemble d'expériences effectuées sur les documents du corpus INEX afin de mesurer la capacité de notre modèle.
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01357585
Contributor : Ludovic Denoyer <>
Submitted on : Tuesday, August 30, 2016 - 10:17:26 AM
Last modification on : Thursday, March 21, 2019 - 2:19:00 PM

Identifiers

  • HAL Id : hal-01357585, version 1

Citation

Guillaume Wisniewski, Ludovic Denoyer, Patrick Gallinari. Restructuration automatique de documents dans les corpus semi structurés hétérogènes. Extraction et Gestion de Connaissances (EGC'05), Jan 2005, Paris, France. pp.227-238. ⟨hal-01357585⟩

Share

Metrics

Record views

167