Représentations et régularisations pour la classification de sentiments

Résumé : Les forums, les blogs et les recommandations sur les sites de vente en ligne constituent une source de données d’un nouveau genre présentant de forts enjeux économiques et scientifiques. L’exploitation de ces données permet de prédire efficacement les ventes de jeux vidéos et les entrées de cinéma. Le but de la fouille d’opinion est également d’affiner les profils d’utilisateurs et d’utiliser les sources ouvertes du web pour effectuer des sondages. Les algorithmes classiques de classification de documents ne fonctionnent pas de manière optimale sur ces données, ce qui explique la dynamique de recherche actuelle sur le sujet. Nous comparons dans cet article différents descripteurs textuels sur la tâche de classification supervisée de polarité et nous montrons l’intérêt des descripteurs complexes (N-grammes, sous-séquences) par rapport aux unigrammes. Ces représentations riches aboutissent à une très grande dimensionnalité qui pose problème lors de l’apprentissage: nous proposons une nouvelle méthode de régularisation basée sur la pénalisation des termes fréquents qui permet d’exploiter efficacement de tels espaces. Nous montrons l’intérêt de cette approche sur les données Amazon et Movie Reviews.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01269858
Contributor : Lip6 Publications <>
Submitted on : Friday, February 5, 2016 - 1:46:18 PM
Last modification on : Thursday, March 21, 2019 - 2:32:12 PM

Identifiers

  • HAL Id : hal-01269858, version 1

Citation

Abdelhalim Rafrafi, Vincent Guigue, Patrick Gallinari. Représentations et régularisations pour la classification de sentiments. CORIA, Mar 2012, Bordeau, France. pp.285-300. ⟨hal-01269858⟩

Share

Metrics

Record views

142