Un modèle statistique pour la classification de documents structurés

Abstract : Nous présentons un modèle d’apprentissage général pour la classification de documents structurés permettant de prendre en compte simultanément la structure et le contenu. Pour cela, nous définissons tout d’abord un modèle génératif de documents structurés à l’aide de réseaux Bayésiens. Nous transformons ensuite ce modèle génératif en un modèle discriminant en utilisant la méthode du noyau de Fisher. Nous détaillons enfin une instance de ce modèle dédié à la classification de pages HTML. Les expériences sur un corpus de référence montrent que la prise en compte de la structure permet un gain de performance par rapport aux modèles classiques de classification génératifs et discriminants.
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01357597
Contributor : Ludovic Denoyer <>
Submitted on : Tuesday, August 30, 2016 - 10:17:35 AM
Last modification on : Thursday, March 21, 2019 - 2:18:58 PM

Identifiers

  • HAL Id : hal-01357597, version 1

Citation

Huyen-Trang Vu, Ludovic Denoyer, Patrick Gallinari. Un modèle statistique pour la classification de documents structurés. Journées francophones d'Extraction et de Gestion des Connaissances (EGC 2003), Jan 2003, Lyon, France. ⟨hal-01357597⟩

Share

Metrics

Record views

165