Ré-ordonnancement pour l'apprentissage de transformations de documents HTML

Guillaume Wisniewski 1 Patrick Gallinari 1
1 MALIRE - Machine Learning and Information Retrieval
LIP6 - Laboratoire d'Informatique de Paris 6
Résumé : Notre objectif est de transformer les documents Web vers un schéma médiateur XML défini a priori. C'est une étape nécessaire pour de nombreuses tâches de recherche d'information concernant le Web Sémantique, les documents semi-structurés, le traitement de sources hétérogènes, etc. Elle permet d'associer une structure sémantiquement riche à des documents dont le formats ne contient que des informations de présentation. Nous proposons de traiter ce problème comme un problème d'apprentissage structuré en le formalisant comme une transformation d'arbre en arbre. Notre méthode de transformation comporte deux étapes. Dans une première étape, une grammaire hors-contexte probabiliste permet de générer un ensemble de solutions candidates. Dans une deuxième étape, ces solutions candidates sont ordonnées grâce à un algorithme de ré-ordonnancement à base de perceptron à noyau. Cette étape d'ordonnancement nous permet d'utiliser de manière efficace des caractéristiques complexes définies à partir du document d'entrée et de la solution candidate.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01308157
Contributor : Lip6 Publications <>
Submitted on : Wednesday, April 27, 2016 - 11:51:51 AM
Last modification on : Thursday, March 21, 2019 - 2:18:31 PM

Identifiers

  • HAL Id : hal-01308157, version 1

Citation

Guillaume Wisniewski, Patrick Gallinari. Ré-ordonnancement pour l'apprentissage de transformations de documents HTML. Extraction et Gestion des Connaissances (EGC), Jan 2007, Namur, Belgique. pp.727-738. ⟨hal-01308157⟩

Share

Metrics

Record views

62