Pénalisation des mots fréquents pour la classification de sentiments - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Les Cahiers du numérique Année : 2011

Pénalisation des mots fréquents pour la classification de sentiments

Résumé

Nous abordons dans cet article le problème de la classification de sentiments en utilisant des techniques d’apprentissage statistique supervisé. Nous étudions différentes combinaisons de fonctions coûts et de régularisations. Le principal problème de la classification de sentiments par rapport à la classification thématique se trouve au niveau de l’extraction de caractéristiques discriminantes. Nous montrons dans cet article que la régularisation classique (L1 ou L2) sélectionne des caractéristiques qui ne sont pas adaptées aux sentiments. Nous présentons une nouvelle méthode de régularisation en pénalisant les mots fréquents : cette méthode nous a permis d’obtenir de très bons résultats en détection de sentiment ainsi qu’en classification multidomaine sur plusieurs jeux de données de référence. Nous fournissons des analyses détaillées des résultats et des interprétations des modèles appris.

Dates et versions

hal-01172669 , version 1 (07-07-2015)

Identifiants

Citer

Abdelhalim Rafrafi, Vincent Guigue, Patrick Gallinari. Pénalisation des mots fréquents pour la classification de sentiments. Les Cahiers du numérique, 2011, 7 (2), pp.63-84. ⟨10.3166/lcn.7.2.63-84⟩. ⟨hal-01172669⟩
59 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More