Combiner lexique et régression logistique dans la classification d'avis laissés sur le Net : une étude de cas

Résumé : L'article compare deux approches en sac de mots pour classifier des avis laissés sur des sites internet de langue française. La première, sans lexique et uniquement statistique, repose sur la régression logistique. La seconde repose sur un lexique d'opinion qui réunit les mots issus de la régression logistique avec une liste de noms, adjectifs et verbes courants annotés manuellement. Les résultats montrent l'intérêt que présente la régression logistique pour enrichir un lexique d'opinion. Par ailleurs, l'analyse des résultats permet de conjecturer les pistes à privilégier pour pallier les insuffisances des approches en sac de mots, particulièrement l'étude de la négation. ABSTRACT Combining lexicon and logistic regression in opinion mining : a case study We compare two bag-of-words approaches aimed to classify reviews extracted from French websites. Our first approach is exclusively statistical : it combines bag-of-words techniques with logistic regression, regardless of any lexicon. Contrastingly, our second approach makes use of an opinion lexicon consisting of a list of manually annotated words (nouns, adjectives, verbs), together with a list of words selected from a logistic regression. Our results show logistic regression as a good technique to improve and enrich opinion lexicons. Furthermore, our analysis suggests directions to follow in order to address the shortcomings of the bag-of-words approach. In particular, it emphasizes the importance of taking into account the contribution of negation in opinion mining. MOTS-CLÉS : analyse des opinions, analyse des sentiments, lexique d'opinion.
Document type :
Conference papers
Complete list of metadatas

Cited literature [13 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01447571
Contributor : Jeanne Villaneau <>
Submitted on : Friday, January 27, 2017 - 8:33:48 AM
Last modification on : Tuesday, July 9, 2019 - 4:54:02 PM
Long-term archiving on : Friday, April 28, 2017 - 6:46:43 PM

File

coltal2016.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01447571, version 1

Citation

Stefania Pecore, Jeanne Villaneau, Farida Saïd. Combiner lexique et régression logistique dans la classification d'avis laissés sur le Net : une étude de cas. TALN 2016, Jul 2016, Paris, France. ⟨hal-01447571⟩

Share

Metrics

Record views

499

Files downloads

272