Modèle probabiliste pour l'extraction de structures dans les documents semi-structurés: Application aux documents Web - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2006

Modèle probabiliste pour l'extraction de structures dans les documents semi-structurés: Application aux documents Web

Résumé

Le développement des systèmes de gestion de contenu a profondément changé la nature du Web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applications. Le passage d’une information de mise en page à une structure sémantique se heurte à deux principaux obstacles : l’hétérogénéité des données et le caractère implicite de de la structure des documents Web. Nous décrivons un modèle stochastique capable d’apprendre à transformer des documents semi-structurés vers un schéma défini a priori et présentons une instance particulière de ce modèle adaptée à la transformation de documents hétérogènes HTML en XML. Finalement, nous décrivons plusieurs expériences sur des corpus XML et HTML réels.
Fichier non déposé

Dates et versions

hal-01352081 , version 1 (05-08-2016)

Identifiants

  • HAL Id : hal-01352081 , version 1

Citer

Guillaume Wisniewski, Ludovic Denoyer, Francis Maes, Patrick Gallinari. Modèle probabiliste pour l'extraction de structures dans les documents semi-structurés: Application aux documents Web. 3eme Conference en Recherche d'Information et Applications (CORIA'06), Mar 2006, Lyon, France. pp.169-180. ⟨hal-01352081⟩
59 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More