Modèles en Caractères pour la Détection de Polarité dans les Tweets

Davide Buscaldi; Joseph Le Roux; Gaël Lejeune

Communication Dans Un Congrès Année : 2018

Modèles en Caractères pour la Détection de Polarité dans les Tweets

(1) , (1) , (2, 3)

1
2
3

Davide Buscaldi

Fonction : Auteur
PersonId : 941628

Laboratoire d'Informatique de Paris-Nord

Joseph Le Roux

Fonction : Auteur
PersonId : 1192450
IdHAL : joseph-le-roux
ORCID : 0000-0002-3889-8536

Laboratoire d'Informatique de Paris-Nord

Gaël Lejeune

Fonction : Auteur
PersonId : 734695
IdHAL : gael-lejeune
ORCID : 0000-0002-4795-2362
IdRef : 182283054

Sens, Texte, Informatique, Histoire

Équipe Linguistique computationnelle

Résumé

Character-level Models for Polarity Detection in Tweets We present our contribution to the DEFT 2018 shared task, with three entries based on different methods to perform topic classification and polarity detection for tweets in French, to which we added a voting system. Our first entry is based on lexicons (for words and emojis), character n-grams and a classifier implemented with a support vector machine (SVM), while the other two are endogenous methods based on character-level feature extraction : first a long short-memory recurrent neural network (BiLSTM) feeding a classifier implementing a multi-layer perceptron, and second a model based on frequent closed character sequences with a SVM. The BiLSTM system gave the best results by far. It ranked first on task 1, a binary theme classification task, and third on task 2, a four-class polarity classification task. This result is very encouraging as this method has very few priors, is completely endogenous, and does not require any specific preprocessing.

Dans cet article, nous présentons notre contribution au Défi Fouille de Textes 2018 au travers de trois méthodes originales pour la classification thématique et la détection de polarité dans des tweets en français. Nous y avons ajouté un système de vote. Notre première méthode est fondée sur des lexiques (mots et emojis), les n-grammes de caractères et un classificateur à vaste marge (ou SVM). tandis que les deux autres sont des méthodes endogènes fondées sur l'extraction de caractéristiques au grain caractères : un modèle à mémoire à court-terme persistante (ou BiLSTM pour Bidirectionnal Long Short-Term Memory) et perceptron multi-couche d'une part et un modèle de séquences de caractères fermées fréquentes et classificateur SVM d'autre part. Le BiLSTM a produit de loin les meilleurs résultats puisqu'il a obtenu la première place sur la tâche 1, classification binaire de tweets selon qu'ils traitent ou non des transports, et la troisième place sur la tâche 2, classification de la polarité en 4 classes. Ce résultat est d'autant plus intéressant que la méthode proposée est faiblement paramétrique, totalement endogène et qu'elle n'implique aucun pré-traitement.

Mots clés

Character-level Models Tweet Analysis character n-grams Polarity detection

Analyse de Tweets Détection de Polarité n-grammes de caractères Analyse en Caractères Bi-LSTM

Domaines

Intelligence artificielle [cs.AI] Informatique et langage [cs.CL]

Fichier principal

tweetaneuse.pdf (171.67 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Joseph Le Roux : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01988907

Soumis le : mardi 22 janvier 2019-10:21:26

Dernière modification le : samedi 7 octobre 2023-21:36:24

Archivage à long terme le : mardi 23 avril 2019-13:51:09

Dates et versions

hal-01988907 , version 1 (22-01-2019)

Identifiants

HAL Id : hal-01988907 , version 1

Citer

Davide Buscaldi, Joseph Le Roux, Gaël Lejeune. Modèles en Caractères pour la Détection de Polarité dans les Tweets. Atelier DEFT 2018, May 2018, Rennes, France. ⟨hal-01988907⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS13 CNRS GREYC-HULTECH LIPN USPC GALILE SORBONNE-UNIVERSITE STIH SU-LETTRES SORBONNE-PARIS-NORD ANR

152 Consultations

304 Téléchargements

Modèles en Caractères pour la Détection de Polarité dans les Tweets

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager