Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information Année : 2006

Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage

Résumé

RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présen-tons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels. Nous nous attachons à traiter dans cette étude des problèmes posés par le routage précis de courriels. Après un processus de filtrage et de lemmatisation, nous utilisons la représentation vectorielle de textes avant d'effectuer la classification par des approches super-visées, semi-supervisées et non supervisées. Lors des tests, nous avons obtenu de très bonnes performances sur des corpus réalistes. ABSTRACT. New forms of written communication (electronic mail, forum, chat, SMS, etc.) are new challenges for Natural Language Processing methods. These data present very particular linguistic phenomena: too short and very noised messages... This paper focuses on the development of generic tools and resources for e-mails classification. This study deals with the problems of the precise routing of e-mails. After a filtering and lemmatization step, vectorial representation of texts is used for classification purpose by means of supervised, semi-supervised and unsupervised learning techniques. Very good results are presented on realistic corpora. MOTS-CLÉS : apprentissage supervisé et non supervisé, machines à vecteurs de support (SVM), fuzzy k-means, classification de textes, routage automatique de courriels.

Dates et versions

hal-01321134 , version 1 (25-05-2016)

Identifiants

Citer

Rémy Kessler, Juan-Manuel Torres-Moreno, Marc El Bèze. Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, 2006, ⟨10.3166/isi.11.2.93-112⟩. ⟨hal-01321134⟩

Collections

UNIV-AVIGNON LIA
87 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More