Keep the Decision Tree and Estimate the Class Probabilities using its Decision Boundary
Résumé
This paper proposes a new method to estimate the class membership probability of the cases classified by a Decision Tree. This method provides smooth class probabilities estimate, without any modification of the tree, when the data are numerical. It applies a posteriori and doesn’t use additional training cases. It relies on the distance to the decision boundary induced by the decision tree. The distance is computed on the training sample. It is then used as an input for a very simple one-dimension kernel-based density estimator, which
provides an estimate of the class membership probability. This geometric method gives good results even with pruned trees, so the intelligibility of the tree is fully preserved.
Cet article propose une nouvelle méthode pour estimer les probabilités d'appartenance aux classes des cas classés par un arbre de décision. Cette méthode produit des estimateurs de probabilités qui varient avec les exemples, et sans modification de l'arbre, dès lors que les données sont numériques. La méthode s'applique a posteriori et ne requiert pas d'exemples d'apprentissage supplémentaires. Elle repose sur la frontière de décision induite par l'arbre de décision. Cette distance est calculée sur la base d'apprentissage. Elle est ensuite fournie à un estimateur de densité à noyau qui calcule la probabilité d'appartenance à chaque classe. Cette méthode géométrique donne de bons résultats même après élagage, l'intelligibilité des arbres est donc complètement préservée.