Combiner lexique et régression logistique dans la classification d'avis laissés sur le Net : une étude de cas

Résumé : L'article compare deux approches en sac de mots pour classifier des avis laissés sur des sites internet de langue française. La première, sans lexique et uniquement statistique, repose sur la régression logistique. La seconde repose sur un lexique d'opinion qui réunit les mots issus de la régression logistique avec une liste de noms, adjectifs et verbes courants annotés manuellement. Les résultats montrent l'intérêt que présente la régression logistique pour enrichir un lexique d'opinion. Par ailleurs, l'analyse des résultats permet de conjecturer les pistes à privilégier pour pallier les insuffisances des approches en sac de mots, particulièrement l'étude de la négation. ABSTRACT Combining lexicon and logistic regression in opinion mining : a case study We compare two bag-of-words approaches aimed to classify reviews extracted from French websites. Our first approach is exclusively statistical : it combines bag-of-words techniques with logistic regression, regardless of any lexicon. Contrastingly, our second approach makes use of an opinion lexicon consisting of a list of manually annotated words (nouns, adjectives, verbs), together with a list of words selected from a logistic regression. Our results show logistic regression as a good technique to improve and enrich opinion lexicons. Furthermore, our analysis suggests directions to follow in order to address the shortcomings of the bag-of-words approach. In particular, it emphasizes the importance of taking into account the contribution of negation in opinion mining. MOTS-CLÉS : analyse des opinions, analyse des sentiments, lexique d'opinion.
Type de document :
Communication dans un congrès
TALN 2016, Jul 2016, Paris, France. TALN 2016 atelier COLTAL
Liste complète des métadonnées

Littérature citée [13 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01447571
Contributeur : Jeanne Villaneau <>
Soumis le : vendredi 27 janvier 2017 - 08:33:48
Dernière modification le : mercredi 16 mai 2018 - 11:24:07
Document(s) archivé(s) le : vendredi 28 avril 2017 - 18:46:43

Fichier

coltal2016.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01447571, version 1

Citation

Stefania Pecore, Jeanne Villaneau, Farida Saïd. Combiner lexique et régression logistique dans la classification d'avis laissés sur le Net : une étude de cas. TALN 2016, Jul 2016, Paris, France. TALN 2016 atelier COLTAL. 〈hal-01447571〉

Partager

Métriques

Consultations de la notice

428

Téléchargements de fichiers

156