Classification automatique de documents structurés. Application au corpus d’arbres étiquetés de type XML

Abstract : Le domaine de la Recherche d’Information Structurée (RIS) est un domaine qui émerge avec l’arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l’initiative INEX, concerne principalement le développement de moteurs de recherche documentaire. Aujourd’hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les documents structurés comme la discrimination ou la restructuration. Dans cet article, nous nous intéressons à la classification automatique de documents XML en fonction de leur régularités structurelles. Nous proposons de modéliser la structure des documents XML par un réseau bayésien qui permet de prendre en compte différentes dépendances entres les unités structurelles du document. Nous présentons les résultats de nos différents modèles sur le corpus INEX et voyons ensuite comment un de nos modèles permet de déterminer un représentant de chacune des classes obtenues sous forme d’une DTD probabiliste.
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01357590
Contributor : Ludovic Denoyer <>
Submitted on : Tuesday, August 30, 2016 - 10:17:30 AM
Last modification on : Thursday, March 21, 2019 - 2:18:55 PM

Identifiers

  • HAL Id : hal-01357590, version 1

Citation

Guillaume Wisniewski, Ludovic Denoyer, Patrick Gallinari. Classification automatique de documents structurés. Application au corpus d’arbres étiquetés de type XML. CORIA 2005 - 2ème Conférence en Recherche d'Informations et Applications, Mar 2005, Grenoble, France. pp.167-184. ⟨hal-01357590⟩

Share

Metrics

Record views

191