Fouille de données pour la stylistique : cas des motifs séquentiels émergents - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Fouille de données pour la stylistique : cas des motifs séquentiels émergents

Résumé

In this paper, we study the use of data mining techniques for stylistic analysis, from a linguistic point of view, by considering emerging sequential patterns. First, we show that mining sequential patterns of words with gapconstraints gives new relevant linguistic patterns with respect to patterns built on state-of-the-art n-grams. Then, we investigate how sequential patterns of itemsets can provide more generic linguistic patterns. We validate our approach both from a quantitative and a linguistic point of view by conducting experiments on three corpora of various types of French texts (poetry, letters, and fiction, respectively). By considering more particularly poetic texts, we show that characteristic linguistic patterns can be identified using data mining techniques.
Dans cet article, nous présentons une étude sur l'utilisation de méthodes de fouille de données pour l'analyse stylistique - d'un point de vue linguistique - en considérant des motifs séquentiels émergents. Nous montrons tout d'abord que la fouille de motifs séquentiels de mots en utilisant la contrainte gap permet d'obtenir de nouveaux patrons linguistiques pertinents par rapport aux patrons construits à partir de n-grammes. Nous étudions ensuite l'utilisation de motifs séquentiels d'itemsets pour produire des patrons linguistiques plus généraux. Nous validons notre approche d'un point de vue quantitatif et d'un point de vue linguistique, en réalisant des expérimentations sur trois corpus français correspondant à différents genres de texte (la poésie, les correspondances et les romans, respectivement). En considérant plus particulièrement les textes poétiques, nous montrons que les techniques de fouille de données employées permettent d'identifier des patrons linguistiques caractéristiques.
Fichier principal
Vignette du fichier
jadt2012.pdf (318.22 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00675586 , version 1 (01-03-2012)

Identifiants

  • HAL Id : hal-00675586 , version 1

Citer

Solen Quiniou, Peggy Cellier, Thierry Charnois, Dominique Legallois. Fouille de données pour la stylistique : cas des motifs séquentiels émergents. 11es Journées Internationales d'Analyse Statistique des Données Textuelles (JADT'12), Jun 2012, Liège, Belgique. pp.821-833. ⟨hal-00675586⟩
582 Consultations
681 Téléchargements

Partager

Gmail Facebook X LinkedIn More