Etude de l'influence des paramètres sur les performances des forêts aléatoires
Résumé
Dans cet article nous présentons nos travaux sur la paramétrisation des Forêts Aléatoires (RF pour Random Forest), et plus précisément sur la paramétrisation de l'algorithme de référence Forest-RI. Dans cet algorithme, la "quantité" d'aléatoire injectée dans le processus d'induction d'un arbre est contrôlée par un hyperparamètre, noté K, qui joue a priori un rôle important pour construire un classifieur performant de type RF. Jusqu'à présent pourtant, aucune règle de paramétrisation n'a été proposée dans la littérature et seulement certaines valeurs arbitraires de K sont traditionnellement utilisées lorsque Forest-RI est expérimenté, sans justification théorique. Nous présentons donc dans cet article une étude expérimentale sur cet hyperparamètre, qui a pour but de comprendre dans quelle mesure le choix de K agit sur les performances en classification des RF. Nous comparons notamment entre elles les valeurs de K de la littérature à l'aide d'un test statistique de significativité. Nous comparons également ces valeurs à un nouvel algorithme d'induction de RF, appelé Forest-RK, pour lequel la valeur de K est choisie aléatoirement à chaque noeud de l'arbre, et n'est donc plus un hyperparamètre de la procédure d'induction. Nous montrons que quelques unes de ces valeurs particulières de K proposées dans la littérature sont statistiquement proches de l'optimalité sur la majorité des bases de données testées, à l'exception de certaines pour lesquelles elles sont significativement sous-optimales. Pour ces bases en particulier Forest-RK se montre en revanche au moins aussi performant que Forest-RI avec ces valeurs de K. Nous reportons aussi des expérimentations complémentaires qui mettent en évidence le rôle important joué par le caractère discriminant des caractéristiques pour déterminer la valeur optimale de K.
Origine : Accord explicite pour ce dépôt
Loading...