Combiner lexique et régression logistique dans la classification d'avis laissés sur le Net : une étude de cas - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Combiner lexique et régression logistique dans la classification d'avis laissés sur le Net : une étude de cas

Résumé

L'article compare deux approches en sac de mots pour classifier des avis laissés sur des sites internet de langue française. La première, sans lexique et uniquement statistique, repose sur la régression logistique. La seconde repose sur un lexique d'opinion qui réunit les mots issus de la régression logistique avec une liste de noms, adjectifs et verbes courants annotés manuellement. Les résultats montrent l'intérêt que présente la régression logistique pour enrichir un lexique d'opinion. Par ailleurs, l'analyse des résultats permet de conjecturer les pistes à privilégier pour pallier les insuffisances des approches en sac de mots, particulièrement l'étude de la négation. ABSTRACT Combining lexicon and logistic regression in opinion mining : a case study We compare two bag-of-words approaches aimed to classify reviews extracted from French websites. Our first approach is exclusively statistical : it combines bag-of-words techniques with logistic regression, regardless of any lexicon. Contrastingly, our second approach makes use of an opinion lexicon consisting of a list of manually annotated words (nouns, adjectives, verbs), together with a list of words selected from a logistic regression. Our results show logistic regression as a good technique to improve and enrich opinion lexicons. Furthermore, our analysis suggests directions to follow in order to address the shortcomings of the bag-of-words approach. In particular, it emphasizes the importance of taking into account the contribution of negation in opinion mining. MOTS-CLÉS : analyse des opinions, analyse des sentiments, lexique d'opinion.
Fichier principal
Vignette du fichier
coltal2016.pdf (85.93 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01447571 , version 1 (27-01-2017)

Identifiants

  • HAL Id : hal-01447571 , version 1

Citer

Stefania Pecore, Jeanne Villaneau, Farida Saïd. Combiner lexique et régression logistique dans la classification d'avis laissés sur le Net : une étude de cas. TALN 2016, Jul 2016, Paris, France. ⟨hal-01447571⟩
256 Consultations
300 Téléchargements

Partager

Gmail Facebook X LinkedIn More