Ré-ordonnancement pour l'apprentissage de transformations de documents HTML - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2007

Ré-ordonnancement pour l'apprentissage de transformations de documents HTML

Résumé

Notre objectif est de transformer les documents Web vers un schéma médiateur XML défini a priori. C'est une étape nécessaire pour de nombreuses tâches de recherche d'information concernant le Web Sémantique, les documents semi-structurés, le traitement de sources hétérogènes, etc. Elle permet d'associer une structure sémantiquement riche à des documents dont le formats ne contient que des informations de présentation. Nous proposons de traiter ce problème comme un problème d'apprentissage structuré en le formalisant comme une transformation d'arbre en arbre. Notre méthode de transformation comporte deux étapes. Dans une première étape, une grammaire hors-contexte probabiliste permet de générer un ensemble de solutions candidates. Dans une deuxième étape, ces solutions candidates sont ordonnées grâce à un algorithme de ré-ordonnancement à base de perceptron à noyau. Cette étape d'ordonnancement nous permet d'utiliser de manière efficace des caractéristiques complexes définies à partir du document d'entrée et de la solution candidate.
Fichier non déposé

Dates et versions

hal-01308157 , version 1 (27-04-2016)

Identifiants

  • HAL Id : hal-01308157 , version 1

Citer

Guillaume Wisniewski, Patrick Gallinari. Ré-ordonnancement pour l'apprentissage de transformations de documents HTML. Extraction et Gestion des Connaissances (EGC), Jan 2007, Namur, Belgique. pp.727-738. ⟨hal-01308157⟩
53 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More