Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Algorithms to get out of Boring Area Trap in Reinforcement Learning

Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

Résumé

Reinforcement learning algorithms have succeeded over the years in achieving impressive results in a variety of fields. However, these algorithms suffer from certain weaknesses highlighted by Refael Vivanti and al. that may explain the regression of even well-trained agents in certain environments : the difference in variance on rewards between areas of the environment. This difference in variance leads to two problems : Boring Area Trap and Manipulative consultant. We note that the Adaptive Symmetric Reward Noising (ASRN) algorithm proposed by Refael Vivanti and al. has limitations for environments with the following characteristics : long game times and multiple boring area environments. To overcome these problems, we propose three algorithms derived from the ASRN algorithm called Rebooted Adaptive Symmetric Reward Noising (RASRN) : Continuous ε decay RASRN, Full RASRN and Stepwise α decay RASRN. Thanks to two series of experiments carried out on the k-armed bandit problem, we show that our algorithms can better correct the Boring Area Trap problem.
Les algorithmes d'apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses entre les zones de l'environnement. Cette différence de variance conduit à deux problèmes : le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l'algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l'algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noi-sing (RASRN) : Continuous ε decay RASRN, Full RASRN et Stepwise α decay RASRN. Grâce à deux séries d'expérimentations menées sur le problème du bandit à k bras, nous montrons que ces algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.
Fichier principal
Vignette du fichier
CARI_Paper_38_Noulawe_Melatagia.pdf (386.02 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02925738 , version 1 (31-08-2020)
hal-02925738 , version 2 (04-02-2021)
hal-02925738 , version 3 (02-07-2021)

Identifiants

  • HAL Id : hal-02925738 , version 1

Citer

Landry Steve Noulawe Tchamanbe, Paulin Melatagia Yonta. Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement. CARI 2020 - Colloque Africain sur la Recherche en Informatique et Mathématiques Appliquée, Oct 2020, Thiès, Sénégal. ⟨hal-02925738v1⟩
157 Consultations
563 Téléchargements

Partager

Gmail Facebook X LinkedIn More