Pénalisation des mots fréquents pour la classification de sentiments

Résumé : Nous abordons dans cet article le problème de la classification de sentiments en utilisant des techniques d’apprentissage statistique supervisé. Nous étudions différentes combinaisons de fonctions coûts et de régularisations. Le principal problème de la classification de sentiments par rapport à la classification thématique se trouve au niveau de l’extraction de caractéristiques discriminantes. Nous montrons dans cet article que la régularisation classique (L1 ou L2) sélectionne des caractéristiques qui ne sont pas adaptées aux sentiments. Nous présentons une nouvelle méthode de régularisation en pénalisant les mots fréquents : cette méthode nous a permis d’obtenir de très bons résultats en détection de sentiment ainsi qu’en classification multidomaine sur plusieurs jeux de données de référence. Nous fournissons des analyses détaillées des résultats et des interprétations des modèles appris.
Document type :
Journal articles
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01172669
Contributor : Lip6 Publications <>
Submitted on : Tuesday, July 7, 2015 - 4:24:49 PM
Last modification on : Thursday, March 21, 2019 - 2:47:58 PM

Links full text

Identifiers

Citation

Abdelhalim Rafrafi, Vincent Guigue, Patrick Gallinari. Pénalisation des mots fréquents pour la classification de sentiments. Les Cahiers du numérique, Lavoisier, 2011, 7 (2), pp.63-84. ⟨10.3166/lcn.7.2.63-84⟩. ⟨hal-01172669⟩

Share

Metrics

Record views

138