Classification de documents combinant la structure et le contenu

Résumé : La démocratisation et l’évolution des logiciels de traitements de texte ont révolutionné le monde du document. Les auteurs construisent des documents dits structurés c'est-à-dire dont le contenu textuel s’organise autours de balises. Toutefois, la classification traditionnelle de documents n’utilise que le contenu textuel des documents et ignore les informations de structure. Dans ce papier, nous proposons une nouvelle représentation des documents structurés basée sur un vecteur pondéré associant un mot et une balise. Les poids sont calculés en adaptant les formules TF-IDF et TF-IEF. Cette représentation est construite à partir d’une représentation synthétique du document appelé arbre résumé. Pour évaluer notre approche, nous avons mené plusieurs expérimentations avec un système de classification basé sur le classifieur SVMlight. Nous présentons les résultats de nos expérimentations menées sur les corpus REUTERS et INEX. / Developing the text processing applications has revolutionized the world of documents. The author constructs the document as structured document in which the textual content is organized around tags. However, the traditional document classification typically classifies the documents considering the text and ignoring its structural elements. In this paper, we propose a representation method which makes use of structural elements to create the vector of tag and word weighted by an extension of TF-IDF and TF-IEF formula. This representation is constructed from an aggregated tree of XML document. Several experimentations have been made using SVMlight as classifier on Reuters and INEX collections.
Document type :
Conference papers
Complete list of metadatas

Cited literature [12 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-00779799
Contributor : Import Ws Irstea <>
Submitted on : Tuesday, January 22, 2013 - 4:00:24 PM
Last modification on : Monday, September 2, 2019 - 2:46:11 PM
Long-term archiving on : Tuesday, April 23, 2013 - 3:55:25 AM

File

cf2012-pub00037131.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-00779799, version 1
  • IRSTEA : PUB00037131

Citation

S. Chagheri, C. Roussey, Sylvie Calabretto, C. Dumoulin. Classification de documents combinant la structure et le contenu. 8ème COnférence en Recherche d'Information et Applications CORIA 2012, Mar 2013, Bordeaux, France. p. 261 - p. 272. ⟨hal-00779799⟩

Share

Metrics

Record views

340

Files downloads

908