Une méthode collaborative pour identifier les spams: contribution à la qualité de l'information dans les réseaux sociaux

Mahdi Washha; Manel Mezghani; Florence Sèdes

doi:10.24348/coria.2017

Communication Dans Un Congrès Année : 2017

Une méthode collaborative pour identifier les spams: contribution à la qualité de l'information dans les réseaux sociaux

(1) , (1) , (1)

Mahdi Washha

Fonction : Auteur

Systèmes d’Informations Généralisées

Manel Mezghani

Fonction : Auteur
PersonId : 1165320
IdRef : 195589572

Systèmes d’Informations Généralisées

Florence Sèdes

Fonction : Auteur
PersonId : 735498
IdHAL : florence-sedes
ORCID : 0000-0002-9273-302X
IdRef : 033232679

Systèmes d’Informations Généralisées

Résumé

Prevent the actions of malicious users called "spammers" is a real challenge to maintain a high level of performance in applications implemented in social networks. Conventional spam detection methods impose large and unavoidable processing times, for example up to months for processing large collections of tweets. These methods entirely dependent on the supervised learning approach chosen to produce classification models, require a set of ground truth data that is not available for this type ofapplications. We propose a method based on an unsupervised linguistic model that collaborates with other social networks to detect spam tweets in subjects that generate large volumes of exchanges, for example from used hashtags. Our method has been experimented on more than 6 million tweets posted in 100 trending topics. Facebook is used in parallel as a ground truth allowing the collaboration oftwo different social networks. Our experiments show an efficiency with regard to processing time and classification performance, compared to the conventional methods of detecting spam in tweets.

Contrer les actions des utilisateurs mal intentionnés dits "spammeurs" est un réel défi pour maintenir un haut niveau de performance dans les applications mises en oeuvre dans les réseaux sociaux. Les méthodes conventionnelles de détection de spams imposent des délais de traitement importants et inévitables, allant par exemple jusqu’à des mois pour traiter de grandes collections de tweets. Ces méthodes entièrement dépendantes de l’approche d’apprentissage supervisé choisie pour produire des modèles de classification, requièrent un ensemble de données vérité terrain qui n’est pas disponible pour ce type d’applications. Nous proposons donc une méthode basée sur un modèle linguistique non supervisé qui effectue une collaboration avec d’autres réseaux sociaux pour détecter les tweets spam dans des sujets qui génèrent de gros volumes d’échanges, par exemple à partir des hashtags utilisés.Notre méthode a été expérimentée sur plus de 6 millions de tweets postés dans 100 thématiques "tendances". Facebook est utilisé en parallèle comme vérité terrain permettant ainsi la collaboration de deux réseaux sociaux différents. Nos expérimentations démontrent une efficacité en ce qui concerne le temps de traitement et la performance de classification, par rapport aux méthodes classiques dedétection de spam dans les tweets.

Mots clés

Social spam Trending topics Social networks

Thématiques tendances Collaboration Spam social Réseaux sociaux

Domaines

Complexité [cs.CC] Performance et fiabilité [cs.PF] Réseaux sociaux et d'information [cs.SI]

Fichier principal

washha_22047.pdf (837.68 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Open Archive Toulouse Archive Ouverte (OATAO) : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02570810

Soumis le : mardi 12 mai 2020-13:23:15

Dernière modification le : jeudi 8 février 2024-15:00:58

Dates et versions

hal-02570810 , version 1 (12-05-2020)

Identifiants

HAL Id : hal-02570810 , version 1
DOI : 10.24348/coria.2017
OATAO : 22047

Citer

Mahdi Washha, Manel Mezghani, Florence Sèdes. Une méthode collaborative pour identifier les spams: contribution à la qualité de l'information dans les réseaux sociaux. 14ème COnférence en Recherche d'Informations et Applications (CORIA 2017), Mar 2017, Marseille, France. pp.139-152, ⟨10.24348/coria.2017⟩. ⟨hal-02570810⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS SMS UT1-CAPITOLE IRIT IRIT-SIG IRIT-GD IRIT-UT3 TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

86 Consultations

76 Téléchargements

Une méthode collaborative pour identifier les spams: contribution à la qualité de l'information dans les réseaux sociaux

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager