Lecture Séquentielle de Documents pour la Classification

Résumé : Nous proposons un nouveau modèle de lecture séquentielle permettant la classification automatique de documents textuels. Il est basé sur la modélisation d’un agent qui lit un document phrases après phrases et qui peut à tout moment décider d’associer un document à une ou plusieurs catégories données. L’algorithme proposé se base sur une formalisation de la classification de texte en tant que Processus de Décision Markovien, et un apprentissage du modèle par des techniques de renforcement. Des experiences effectuées sur quatre corpus classiques du domaine montrent que l’approche proposée atteint des performances équivalentes à un SVM tout en lisant (en moyenne) que quelques phrases de chaque document.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01271754
Contributor : Lip6 Publications <>
Submitted on : Tuesday, February 9, 2016 - 3:49:09 PM
Last modification on : Thursday, March 21, 2019 - 2:33:47 PM

Identifiers

  • HAL Id : hal-01271754, version 1

Citation

Gabriel Dulac-Arnold, Ludovic Denoyer, Patrick Gallinari. Lecture Séquentielle de Documents pour la Classification. CORIA, Mar 2012, Bordeaux, France. pp.245-259. ⟨hal-01271754⟩

Share

Metrics

Record views

149