Etude de l'influence des paramètres sur les performances des forêts aléatoires - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2008

Etude de l'influence des paramètres sur les performances des forêts aléatoires

Simon Bernard
Laurent Heutte

Résumé

Dans cet article nous présentons nos travaux sur la paramétrisation des Forêts Aléatoires (RF pour Random Forest), et plus précisément sur la paramétrisation de l'algorithme de référence Forest-RI. Dans cet algorithme, la "quantité" d'aléatoire injectée dans le processus d'induction d'un arbre est contrôlée par un hyperparamètre, noté K, qui joue a priori un rôle important pour construire un classifieur performant de type RF. Jusqu'à présent pourtant, aucune règle de paramétrisation n'a été proposée dans la littérature et seulement certaines valeurs arbitraires de K sont traditionnellement utilisées lorsque Forest-RI est expérimenté, sans justification théorique. Nous présentons donc dans cet article une étude expérimentale sur cet hyperparamètre, qui a pour but de comprendre dans quelle mesure le choix de K agit sur les performances en classification des RF. Nous comparons notamment entre elles les valeurs de K de la littérature à l'aide d'un test statistique de significativité. Nous comparons également ces valeurs à un nouvel algorithme d'induction de RF, appelé Forest-RK, pour lequel la valeur de K est choisie aléatoirement à chaque noeud de l'arbre, et n'est donc plus un hyperparamètre de la procédure d'induction. Nous montrons que quelques unes de ces valeurs particulières de K proposées dans la littérature sont statistiquement proches de l'optimalité sur la majorité des bases de données testées, à l'exception de certaines pour lesquelles elles sont significativement sous-optimales. Pour ces bases en particulier Forest-RK se montre en revanche au moins aussi performant que Forest-RI avec ces valeurs de K. Nous reportons aussi des expérimentations complémentaires qui mettent en évidence le rôle important joué par le caractère discriminant des caractéristiques pour déterminer la valeur optimale de K.
Fichier principal
Vignette du fichier
paper-44.pdf (1.1 Mo) Télécharger le fichier
Origine : Accord explicite pour ce dépôt
Loading...

Dates et versions

hal-00334425 , version 1 (26-10-2008)

Identifiants

  • HAL Id : hal-00334425 , version 1

Citer

Simon Bernard, Laurent Heutte, Sébastien Adam. Etude de l'influence des paramètres sur les performances des forêts aléatoires. 10ème Colloque International Francophone sur l'Ecrit et le Document (CIFED), Oct 2008, Rouen, France. pp.207-208. ⟨hal-00334425⟩
89 Consultations
203 Téléchargements

Partager

Gmail Facebook X LinkedIn More