A stylometric approach for opinion mining - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

A stylometric approach for opinion mining

Une approche stylométrique pour la fouille d'opinion

Gaël Lejeune
Frédéric Dumonceaux
  • Fonction : Auteur

Résumé

This article tries to tackle the DEFT'15 opinion mining challenge using a stylometric approach. The dataset proposed by the organizers was a set of microblog messages extracted from Twitter. We participated in three tasks : classification according to polarity (Task 1, 3 classes), classification according to information (Task 2.1, 4 classes) and classification according to specific classes (Task 3, 18 classes). The stylometric approach we used was based on recent work on Autor-ship Attribution using character n-grams as features. Our assumption was that the features efficient for characterizing an author style would be efficient as well for identifying the opinions or emotions expressed in tweets. We showed that this assumption was wrong, especially on task 3. It appears that the stylometric features might not be well suited for opinion mining tasks. Another hypothesis to explain this result is that the length of the microblog messages might be too small to take advantage of such a stylometric approach.
Dans cet article nous proposons une approche stylométrique pour l'édition 2015 du Défi Fouille de Textes. Cette édition du défi portait sur l'analyse d'opinions, de sentiments et d'émotions dans un corpus issu de Twitter. Nous avons participé dans trois tâches du défi : classification des tweets selon leur polarité (Tâche 1, 3 classes), identification de la classe générique de l'information exprimée dans le tweet (Tâche 2.1, 4 classes) et identification de la classe spécifique de l'opinion, sentiment ou émotion exprimée dans le tweet (Tâche 2.2, 18 classes). L'approche stylométrique que nous avons utilisée est fondée sur l'utilisation de n-grams de caractères de manière à traiter ces tâches de fouille d'opinion comme des tâches d'attribution d'auteur. Notre hypothèse était la suivante : les traits qui permettent de caractériser le style d'un auteur devraient permettre d'identifier le style inhérent à une classe d'opinion, de sentiment ou d'émotion. Finalement, cette hypothèse s'est avérée erronée, particulièrement sur la tâche 3 qui était la plus difficile. La première in-terprétation que l'on peut faire serait qu'il n'existe pas véritablement de traits stylistiques inhérents aux classes étudiées. Une autre explication possible est la faible longueur des messages qui rendrait les méthodes stylométriques inopérantes.
Fichier principal
Vignette du fichier
deft2015_dimeco.pdf (121.02 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01170000 , version 1 (30-06-2015)

Identifiants

  • HAL Id : hal-01170000 , version 1

Citer

Gaël Lejeune, Frédéric Dumonceaux. A stylometric approach for opinion mining. Traitement Automatique des Langues Naturelles 2015, DEFT, Jun 2015, caen, France. ⟨hal-01170000⟩
89 Consultations
138 Téléchargements

Partager

Gmail Facebook X LinkedIn More