Modèle probabiliste pour l'extraction de structures dans les documents semi-structurés: Application aux documents Web

Guillaume Wisniewski; Ludovic Denoyer; Francis Maes; Patrick Gallinari

Communication Dans Un Congrès Année : 2006

Modèle probabiliste pour l'extraction de structures dans les documents semi-structurés: Application aux documents Web

(1) , (1) , (1) , (1)

Guillaume Wisniewski

Fonction : Auteur
PersonId : 748468
IdHAL : guillaume-wisniewski
ORCID : 0000-0002-4445-080X
IdRef : 128062290

Machine Learning and Information Retrieval

Ludovic Denoyer

Fonction : Auteur
PersonId : 9178
IdHAL : ludovic-denoyer
ORCID : 0000-0002-7348-788X
IdRef : 089291255

Machine Learning and Information Retrieval

Francis Maes

Fonction : Auteur
PersonId : 968152

Machine Learning and Information Retrieval

Patrick Gallinari

Fonction : Auteur
PersonId : 751615
IdHAL : patrick-gallinari
ORCID : 0000-0001-9060-9001
IdRef : 070709076

Machine Learning and Information Retrieval

Résumé

Le développement des systèmes de gestion de contenu a profondément changé la nature du Web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applications. Le passage d’une information de mise en page à une structure sémantique se heurte à deux principaux obstacles : l’hétérogénéité des données et le caractère implicite de de la structure des documents Web. Nous décrivons un modèle stochastique capable d’apprendre à transformer des documents semi-structurés vers un schéma défini a priori et présentons une instance particulière de ce modèle adaptée à la transformation de documents hétérogènes HTML en XML. Finalement, nous décrivons plusieurs expériences sur des corpus XML et HTML réels.

Domaines

Informatique [cs]

Lip6 Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01352081

Soumis le : vendredi 5 août 2016-14:30:33

Dernière modification le : mardi 11 avril 2023-15:16:28

Dates et versions

hal-01352081 , version 1 (05-08-2016)

Identifiants

HAL Id : hal-01352081 , version 1

Citer

Guillaume Wisniewski, Ludovic Denoyer, Francis Maes, Patrick Gallinari. Modèle probabiliste pour l'extraction de structures dans les documents semi-structurés: Application aux documents Web. 3eme Conference en Recherche d'Information et Applications (CORIA'06), Mar 2006, Lyon, France. pp.169-180. ⟨hal-01352081⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS LIP6 SORBONNE-UNIVERSITE SU-SCIENCES

59 Consultations

0 Téléchargements

Modèle probabiliste pour l'extraction de structures dans les documents semi-structurés: Application aux documents Web

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager