Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

Landry Steve Noulawe Tchamanbe; Paulin Melatagia Yonta

doi:10.46298/arima.6748

Article Dans Une Revue Revue Africaine de Recherche en Informatique et Mathématiques Appliquées Année : 2021

Algorithms to get out of Boring Area Trap in Reinforcement Learning

Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

(1, 2) , (1, 2)

1
2

Landry Steve Noulawe Tchamanbe

Fonction : Auteur
PersonId : 1076169

Département d'informatique, Faculté des Sciences, Université de Yaoundé 1

Informatique distribuée pour l’analyse des systèmes complexes [Yaoundé]

Paulin Melatagia Yonta

Fonction : Auteur

Département d'informatique, Faculté des Sciences, Université de Yaoundé 1

Informatique distribuée pour l’analyse des systèmes complexes [Yaoundé]

Résumé

Reinforcement learning algorithms have succeeded over the years in achieving impressive results in a variety of fields. However, these algorithms suffer from certain weaknesses highlighted by Refael Vivanti and al. that may explain the regression of even well-trained agents in certain environments : the difference in variance on rewards between areas of the environment. This difference in variance leads to two problems : Boring Area Trap and Manipulative consultant. We note that the Adaptive Symmetric Reward Noising (ASRN) algorithm proposed by Refael Vivanti and al. has limitations for environments with the following characteristics : long game times and multiple boring area environments. To overcome these problems, we propose three algorithms derived from the ASRN algorithm called Rebooted Adaptive Symmetric Reward Noising (RASRN) : Continuous ε decay RASRN, Full RASRN and Stepwise α decay RASRN. Thanks to two series of experiments carried out on the k-armed bandit problem, we show that our algorithms can better correct the Boring Area Trap problem.

Les algorithmes d'apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses entre les zones de l'environnement. Cette différence de variance conduit à deux problèmes : le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l'algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l'algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noi-sing (RASRN) : Continuous ε decay RASRN, Full RASRN et Stepwise α decay RASRN. Grâce à deux séries d'expérimentations menées sur le problème du bandit à k bras, nous montrons que ces algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.

Mots clés

k-armed bandit ASRN Boring Area Trap Reinforcement Learning k-armed bandit

bandit à k bras. ASRN Piège de la Zone Ennuyeuse Apprentissage par renforcement bandit à k bras.

Domaines

Informatique [cs] Intelligence artificielle [cs.AI] Machine Learning [stat.ML]

Fichier principal

ARIMA-FR-Latex.pdf (363.21 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Landry Steve Noulawe Tchamanbe : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02925738

Soumis le : vendredi 2 juillet 2021-11:37:46

Dernière modification le : lundi 15 avril 2024-09:16:03

Dates et versions

hal-02925738 , version 1 (31-08-2020)

hal-02925738 , version 2 (04-02-2021)

hal-02925738 , version 3 (02-07-2021)

Identifiants

HAL Id : hal-02925738 , version 3
DOI : 10.46298/arima.6748

Citer

Landry Steve Noulawe Tchamanbe, Paulin Melatagia Yonta. Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement. Revue Africaine de Recherche en Informatique et Mathématiques Appliquées, 2021, Volume 34 - 2020 - Special Issue CARI 2020 (CARI 2020), ⟨10.46298/arima.6748⟩. ⟨hal-02925738v3⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

AFRIQ INRIA LIRIMA

157 Consultations

563 Téléchargements

Algorithms to get out of Boring Area Trap in Reinforcement Learning

Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager