Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

Landry Steve Noulawe Tchamanbe; Paulin Melatagia Yonta

Communication Dans Un Congrès Année : 2020

Algorithms to get out of Boring Area Trap in Reinforcement Learning

Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

(1, 2) , (1, 2)

1
2

Landry Steve Noulawe Tchamanbe

Fonction : Auteur
PersonId : 1076169

Département d'informatique, Faculté des Sciences, Université de Yaoundé 1

Informatique distribuée pour l’analyse des systèmes complexes [Yaoundé]

Paulin Melatagia Yonta

Fonction : Auteur

Département d'informatique, Faculté des Sciences, Université de Yaoundé 1

Informatique distribuée pour l’analyse des systèmes complexes [Yaoundé]

Résumé

Reinforcement learning algorithms have succeeded over the years in achieving impressive results in a variety of fields. However, these algorithms suffer from certain weaknesses highlighted by Refael Vivanti and al. that may explain the regression of even well-trained agents in certain environments : the difference in variance on rewards between areas of the environment. This difference in variance leads to two problems : Boring Area Trap and Manipulative consultant. We note that the Adaptive Symmetric Reward Noising (ASRN) algorithm proposed by Refael Vivanti and al. has limitations for environments with the following characteristics : long game times and multiple boring area environments. To overcome these problems, we propose three algorithms derived from the ASRN algorithm called Rebooted Adaptive Symmetric Reward Noising (RASRN) : Continuous ε decay RASRN, Full RASRN and Stepwise α decay RASRN. Thanks to two series of experiments carried out on the k-armed bandit problem, we show that our algorithms can better correct the Boring Area Trap problem.

Les algorithmes d'apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses entre les zones de l'environnement. Cette différence de variance conduit à deux problèmes : le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l'algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l'algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noi-sing (RASRN) : Continuous ε decay RASRN, Full RASRN et Stepwise α decay RASRN. Grâce à deux séries d'expérimentations menées sur le problème du bandit à k bras, nous montrons que ces algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.

Mots clés

Reinforcement Learning Boring Area Trap ASRN k-armed bandit

Apprentissage par renforcement Piège de la Zone Ennuyeuse ASRN bandit à k bras.

Domaines

Informatique [cs] Intelligence artificielle [cs.AI] Machine Learning [stat.ML]

Fichier principal

CARI_Paper_38_Noulawe_Melatagia.pdf (386.02 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Landry Steve Noulawe Tchamanbe : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02925738

Soumis le : lundi 31 août 2020-16:39:40

Dernière modification le : lundi 15 avril 2024-09:16:03

Archivage à long terme le : mardi 1 décembre 2020-12:05:15

Dates et versions

hal-02925738 , version 1 (31-08-2020)

hal-02925738 , version 2 (04-02-2021)

hal-02925738 , version 3 (02-07-2021)

Identifiants

HAL Id : hal-02925738 , version 1

Citer

Landry Steve Noulawe Tchamanbe, Paulin Melatagia Yonta. Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement. CARI 2020 - Colloque Africain sur la Recherche en Informatique et Mathématiques Appliquée, Oct 2020, Thiès, Sénégal. ⟨hal-02925738v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

157 Consultations

563 Téléchargements

Algorithms to get out of Boring Area Trap in Reinforcement Learning

Algorithmes de sortie du Piège de la Zone Ennuyeuse en apprentissage par renforcement

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager