Représentations et régularisations pour la classification de sentiments - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Représentations et régularisations pour la classification de sentiments

Résumé

Les forums, les blogs et les recommandations sur les sites de vente en ligne constituent une source de données d’un nouveau genre présentant de forts enjeux économiques et scientifiques. L’exploitation de ces données permet de prédire efficacement les ventes de jeux vidéos et les entrées de cinéma. Le but de la fouille d’opinion est également d’affiner les profils d’utilisateurs et d’utiliser les sources ouvertes du web pour effectuer des sondages. Les algorithmes classiques de classification de documents ne fonctionnent pas de manière optimale sur ces données, ce qui explique la dynamique de recherche actuelle sur le sujet. Nous comparons dans cet article différents descripteurs textuels sur la tâche de classification supervisée de polarité et nous montrons l’intérêt des descripteurs complexes (N-grammes, sous-séquences) par rapport aux unigrammes. Ces représentations riches aboutissent à une très grande dimensionnalité qui pose problème lors de l’apprentissage: nous proposons une nouvelle méthode de régularisation basée sur la pénalisation des termes fréquents qui permet d’exploiter efficacement de tels espaces. Nous montrons l’intérêt de cette approche sur les données Amazon et Movie Reviews.
Fichier non déposé

Dates et versions

hal-01269858 , version 1 (05-02-2016)

Identifiants

  • HAL Id : hal-01269858 , version 1

Citer

Abdelhalim Rafrafi, Vincent Guigue, Patrick Gallinari. Représentations et régularisations pour la classification de sentiments. CORIA, Mar 2012, Bordeau, France. pp.285-300. ⟨hal-01269858⟩
83 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More