Modèle probabiliste pour l'extraction de structures dans les documents Web

Guillaume Wisniewski; Francis Maes; Ludovic Denoyer; Patrick Gallinari

doi:10.3166/dn.10.89-107

Article Dans Une Revue Document numérique - Revue des sciences et technologies de l'information. Série Document numérique Année : 2007

Modèle probabiliste pour l'extraction de structures dans les documents Web

(1) , (1) , (1) , (1)

Guillaume Wisniewski

Fonction : Auteur
PersonId : 748468
IdHAL : guillaume-wisniewski
ORCID : 0000-0002-4445-080X
IdRef : 128062290

Machine Learning and Information Retrieval

Francis Maes

Fonction : Auteur
PersonId : 968152

Machine Learning and Information Retrieval

Ludovic Denoyer

Fonction : Auteur
PersonId : 9178
IdHAL : ludovic-denoyer
ORCID : 0000-0002-7348-788X
IdRef : 089291255

Machine Learning and Information Retrieval

Patrick Gallinari

Fonction : Auteur
PersonId : 751615
IdHAL : patrick-gallinari
ORCID : 0000-0001-9060-9001
IdRef : 070709076

Machine Learning and Information Retrieval

Résumé

Le développement des systèmes de gestion de contenu a profondément changé la nature du web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applications. Le passage d’une information de mise en page à une structure sémantique se heurte à deux principaux obstacles : l’hétérogénéité des données et le caractère implicite de la structure des documents web. Nous décrivons un modèle stochastique capable d’apprendre à transformer des documents semi-structurés vers un schéma défini a priori et présentons une instance particulière de ce modèle adaptée à la transformation de documents hétérogènes HTML en XML.

Domaines

Informatique [cs]

Lip6 Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01172407

Soumis le : mardi 7 juillet 2015-13:37:44

Dernière modification le : mardi 11 avril 2023-15:16:28

Dates et versions

hal-01172407 , version 1 (07-07-2015)

Identifiants

HAL Id : hal-01172407 , version 1
DOI : 10.3166/dn.10.89-107

Citer

Guillaume Wisniewski, Francis Maes, Ludovic Denoyer, Patrick Gallinari. Modèle probabiliste pour l'extraction de structures dans les documents Web. Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, 2007, 10 (1), pp.89-107. ⟨10.3166/dn.10.89-107⟩. ⟨hal-01172407⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS LIP6 SORBONNE-UNIVERSITE SU-SCIENCES

87 Consultations

0 Téléchargements

Modèle probabiliste pour l'extraction de structures dans les documents Web

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager