Classification de texte enrichie à l'aide de motifs séquentiels - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Sequential pattern mining for text classification

Classification de texte enrichie à l'aide de motifs séquentiels

Pierre Holat
Nadi Tomeh
Thierry Charnois

Résumé

Sequential pattern mining for text classification Most methods in text classification rely on contiguous sequences of words as features. Indeed, if we want to take non-contiguous (gappy) patterns into account, the number of features increases exponentially with the size of the text. Furthermore , most of these patterns will be mere noise. To overcome both issues, sequential pattern mining can be used to efficiently extract a smaller number of relevant, non-contiguous, features. In this paper, we compare the use of constrained frequent pattern mining and δ-free patterns as features for text classification. We show experimentally the advantages and disadvantages of each type of patterns.
En classification de textes, la plupart des méthodes fondées sur des classifieurs statistiques utilisent des mots, ou des combinaisons de mots contigus, comme descripteurs. Si l'on veut prendre en compte plus d'informations le nombre de descripteurs non contigus augmente exponentiellement. Pour pallier à cette croissance, la fouille de motifs séquentiels permet d'extraire, de façon efficace, un nombre réduit de descripteurs qui sont à la fois fréquents et pertinents grâce à l'utilisation de contraintes. Dans ce papier, nous comparons l'utilisation de motifs fréquents sous contraintes et l'utilisation de motifs δ-libres, comme descripteurs. Nous montrons les avantages et inconvénients de chaque type de motif.
Fichier principal
Vignette du fichier
taln-2015-paper.pdf (681.08 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01168500 , version 1 (26-06-2015)

Identifiants

  • HAL Id : hal-01168500 , version 1

Citer

Pierre Holat, Nadi Tomeh, Thierry Charnois. Classification de texte enrichie à l'aide de motifs séquentiels. TALN 2015, Jun 2015, Caen, France. ⟨hal-01168500⟩
193 Consultations
257 Téléchargements

Partager

Gmail Facebook X LinkedIn More