Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage

Résumé : RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présen-tons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels. Nous nous attachons à traiter dans cette étude des problèmes posés par le routage précis de courriels. Après un processus de filtrage et de lemmatisation, nous utilisons la représentation vectorielle de textes avant d'effectuer la classification par des approches super-visées, semi-supervisées et non supervisées. Lors des tests, nous avons obtenu de très bonnes performances sur des corpus réalistes. ABSTRACT. New forms of written communication (electronic mail, forum, chat, SMS, etc.) are new challenges for Natural Language Processing methods. These data present very particular linguistic phenomena: too short and very noised messages... This paper focuses on the development of generic tools and resources for e-mails classification. This study deals with the problems of the precise routing of e-mails. After a filtering and lemmatization step, vectorial representation of texts is used for classification purpose by means of supervised, semi-supervised and unsupervised learning techniques. Very good results are presented on realistic corpora. MOTS-CLÉS : apprentissage supervisé et non supervisé, machines à vecteurs de support (SVM), fuzzy k-means, classification de textes, routage automatique de courriels.
Document type :
Journal articles
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01321134
Contributor : Bibliothèque Universitaire Déposants Hal-Avignon <>
Submitted on : Wednesday, May 25, 2016 - 9:41:39 AM
Last modification on : Friday, March 22, 2019 - 11:34:07 AM

Links full text

Identifiers

Collections

Citation

Rémy Kessler, Juan-Manuel Torres-Moreno, Marc El Bèze. Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2006, ⟨10.3166/isi.11.2.93-112⟩. ⟨hal-01321134⟩

Share

Metrics

Record views

81