Pénalisation des mots fréquents pour la classification de sentiments

Abdelhalim Rafrafi; Vincent Guigue; Patrick Gallinari

doi:10.3166/lcn.7.2.63-84

Article Dans Une Revue Les Cahiers du numérique Année : 2011

Pénalisation des mots fréquents pour la classification de sentiments

(1) , (1) , (1)

Abdelhalim Rafrafi

Fonction : Auteur
PersonId : 968169

Machine Learning and Information Retrieval

Vincent Guigue

Fonction : Auteur
PersonId : 9501
IdHAL : vincent-guigue
ORCID : 0000-0002-1450-5566
IdRef : 094293767

Machine Learning and Information Retrieval

Patrick Gallinari

Fonction : Auteur
PersonId : 751615
IdHAL : patrick-gallinari
ORCID : 0000-0001-9060-9001
IdRef : 070709076

Machine Learning and Information Retrieval

Résumé

Nous abordons dans cet article le problème de la classification de sentiments en utilisant des techniques d’apprentissage statistique supervisé. Nous étudions différentes combinaisons de fonctions coûts et de régularisations. Le principal problème de la classification de sentiments par rapport à la classification thématique se trouve au niveau de l’extraction de caractéristiques discriminantes. Nous montrons dans cet article que la régularisation classique (L1 ou L2) sélectionne des caractéristiques qui ne sont pas adaptées aux sentiments. Nous présentons une nouvelle méthode de régularisation en pénalisant les mots fréquents : cette méthode nous a permis d’obtenir de très bons résultats en détection de sentiment ainsi qu’en classification multidomaine sur plusieurs jeux de données de référence. Nous fournissons des analyses détaillées des résultats et des interprétations des modèles appris.

Domaines

Informatique [cs]

Lip6 Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01172669

Soumis le : mardi 7 juillet 2015-16:24:49

Dernière modification le : mardi 11 avril 2023-15:16:28

Dates et versions

hal-01172669 , version 1 (07-07-2015)

Identifiants

HAL Id : hal-01172669 , version 1
DOI : 10.3166/lcn.7.2.63-84

Citer

Abdelhalim Rafrafi, Vincent Guigue, Patrick Gallinari. Pénalisation des mots fréquents pour la classification de sentiments. Les Cahiers du numérique, 2011, 7 (2), pp.63-84. ⟨10.3166/lcn.7.2.63-84⟩. ⟨hal-01172669⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS LIP6 SORBONNE-UNIVERSITE SU-SCIENCES

59 Consultations

0 Téléchargements

Pénalisation des mots fréquents pour la classification de sentiments

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager