Mesures de discrimination et leurs applications en apprentissage inductif

Thanh Ha Dang

Résumé

Nowadays, the available data become more and more voluminous and diverse by nature: vague data, missing data, numerical or symbolic data can be encountered. However, users are more interested in the knowledge which can be extracted from the data, than by the data themselves. Vis-à-vis the great quantity of available data, the effective processing of data is very cumbersome. In this thesis we adopt an approach of knowledge extraction from data based on inductive learning, more precisely by using the decision tree technique. In general, the purpose of a system constructed by inductive learning is to discriminate the individuals belonging to different classes. Its quality depends on its discrimination power which is acquired during the learning phase through the data. In particular, an algorithm of construction of a decision tree works by successively evaluating the discrimination power of the attributes. In this thesis, we investigate the measures of discrimination, both classical and fuzzy, and their applications in inductive learning. On the one hand, we consider discrimination measures for the construction of decision trees. We begin by studying these measures following an axiomatic approach and develop a new model which permits to characterize fuzzy measures of discrimination. Then, we propose to use these measures during the various stages of construction of fuzzy decision trees. On the other hand, we study the use of these measures of discrimination during other steps of the learning process. Firstly, we examine the classifier evaluation process and propose an evaluation criteria based on the concept of discrimination power. Next, we consider the missing data problem and propose a new technique of imputation by restoring the discrimination power of attributes. This work is validated on conventional data and is applied to some real problems such as email classification and human-computer interaction traces classification.

De nos jours, les données disponibles deviennent de plus en plus volumineuses et elles peuvent être de nature très diverse : vagues, manquantes, numériques, symboliques par exemple. Or ce qui importe à l'utilisateur, ce ne sont pas les données elles-mêmes, mais les connaissances qu'on peut en extraire. Face à la quantité de données disponibles, le traitement efficace de données est problématique. Dans cette thèse, nous adoptons une approche d'extraction de connaissances à partir de données basée sur l'apprentissage inductif, plus précisément, par arbres de décision. De façon générale, un système construit par apprentissage inductif a pour but de discriminer les individus de différentes classes. Sa qualité dépend de la capacité de discrimination qu'il acquiert au cours de l'apprentissage au travers des données. En particulier, un algorithme de construction d'arbre de décision procède par évaluation successive de la capacité de discrimination des attributs pour construire l'arbre de décision. Nos travaux concernent l'étude des mesures de discrimination tant classiques que floues, et leurs applications en apprentissage inductif. D'une part, nous nous intéressons aux mesures de discrimination dans la construction des arbres de décision. Dans un premier temps, ces mesures font l'objet d'une étude selon une approche axiomatique. Nous développons un nouveau modèle pour caractériser les mesures de discriminations floues. Dans un deuxième temps, nous proposons d'utiliser ces mesures dans les différentes étapes de la construction des arbres de décision flous. D'autre part, nous étudions l'utilisation de ces mesures de discrimination pour d'autres aspects de l'apprentissage. Nous examinons tout d'abord le problème de l'évaluation des classifieurs et proposons une méthode basée sur l'utilisation de la notion de capacité de discrimination. Enfin, nous considérons le problème du traitement des données manquantes et proposons une technique de substitution des valeurs manquantes, qui restitue la capacité de discrimination des attributs. Ces travaux sont validés sur des données conventionnelles et appliqués à des données réelles dans le cadre de deux applications qui concernent la classification de courriers électroniques et la classification de traces d'interactions homme-machine.

Discrimination measures and theirs applications in inductif learning

Mesures de discrimination et leurs applications en apprentissage inductif

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager