Classification automatique de structures arborescentes à l’aide du noyau de Fisher: Application aux documents XML

Abstract : Le domaine de la Recherche d’Information Structurée (RIS) est un domaine qui émerge avec l’arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l’initiative INEX, concerne principalement le développement de moteurs de recherche documentaire. Cependant, aujourd’hui, il est nécessaire de développer en parallèle des modèles pour le traitement de différentes problématiques dans les documents structurés comme la discrimination – qui vise à associer à chaque document une ou plusieurs étiquettes parmi un ensemble donné - ou la restructuration – qui cherche à projeter un ensemble de documents dans un schéma de médiation. La difficulté principale rencontrée provient du fait qu’il existe très peu de mesures de similarité entre documents XML. Il est donc nécessaire aujourd’hui de s’intéresser à la conception de telles mesures. Dans cet article, nous nous intéressons à la classification automatique de documents XML en fonction de leurs régularités structurelles. L’objet de cette problématique est de détecter automatiquement, à travers la structure des documents, l’ensemble des sources d’information dont ils sont issus. Cette problématique trouve son sens dans plusieurs applications ; elle peut permettre la visualisation par un utilisateur de l’organisation d’un corpus de documents hétérogènes comme le Web par exemple ; elle permet aussi de faciliter la recherche documentaire en sélectionnant la source qui, a priori, intéresse le plus un utilisateur. L’article proposé ici a pour but de montrer comment un modèle génératif de documents structurés basé sur les réseaux bayésien peut être utilisé, à travers le noyau de Fisher, comme un modèle permettant la mesure de la similarité entre deux documents XML. Cette similarité est évaluée à travers la tâche de classification automatique du corpus INEX.
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01357588
Contributor : Ludovic Denoyer <>
Submitted on : Tuesday, August 30, 2016 - 10:17:28 AM
Last modification on : Thursday, March 21, 2019 - 2:18:59 PM

Identifiers

  • HAL Id : hal-01357588, version 1

Citation

Ludovic Denoyer, Guillaume Wisniewski, Patrick Gallinari. Classification automatique de structures arborescentes à l’aide du noyau de Fisher: Application aux documents XML. 6ème Congrès européen de science des systèmes, Sep 2005, Paris, France. ⟨hal-01357588⟩

Share

Metrics

Record views

73