Choix de la fonction de renforcement et des valeurs initiales pour accélérer les problèmes d'Apprentissage par Renforcement de plus court chemin stochastique.

Laëtitia Matignon; Guillaume J. Laurent; Nadine Le Fort-Piat

Communication Dans Un Congrès Année : 2006

Choix de la fonction de renforcement et des valeurs initiales pour accélérer les problèmes d'Apprentissage par Renforcement de plus court chemin stochastique.

(1) , (1) , (1)

Laëtitia Matignon

Fonction : Auteur
PersonId : 3290
IdHAL : laetitia-matignon
ORCID : 0000-0001-7126-8715
IdRef : 134644239

Laboratoire d'automatique de Besançon

Guillaume J. Laurent

Fonction : Auteur
PersonId : 854827

Laboratoire d'automatique de Besançon

Nadine Le Fort-Piat

Fonction : Auteur
PersonId : 853953

Laboratoire d'automatique de Besançon

Résumé

Un point important en apprentissage par renforcement (AR) est l'amélioration de la vitesse de convergence du processus d'apprentissage. Nous proposons dans cet article d'étudier l'influence de certains paramètres de l'AR sur la vitesse d'apprentissage. En effet, bien que les propriétés de convergence de l'AR ont été largement étudiées, peu de règles précises existent pour choisir correctement la fonction de renforcement et les valeurs initiales de la table Q. Notre méthode aide au choix de ces paramètres dans le cadre de problèmes de type goal-directed, c'est-à-dire dont l'objectif est d'atteindre un but en un minimum de temps. Nous développons une étude théorique et proposons ensuite des justifications expérimentales pour choisir d'une part la fonction de renforcement et d'autre part des valeurs initiales particulières de la table Q, basées sur une fonction d'influence.

Mots clés

reward shaping Apprentissage par renforcement de type goal-directed fonction de renforcement initialisation de la table Q fonction d'influence reward shaping.

Domaines

Automatique / Robotique

Fichier principal

JFPDA_matignon-1.pdf (262.4 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Martine Azema : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00339340

Soumis le : lundi 17 novembre 2008-15:51:29

Dernière modification le : jeudi 13 avril 2023-09:26:12

Archivage à long terme le : lundi 7 juin 2010-23:02:36

Dates et versions

hal-00339340 , version 1 (17-11-2008)

Identifiants

HAL Id : hal-00339340 , version 1

Citer

Laëtitia Matignon, Guillaume J. Laurent, Nadine Le Fort-Piat. Choix de la fonction de renforcement et des valeurs initiales pour accélérer les problèmes d'Apprentissage par Renforcement de plus court chemin stochastique.. Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la Conduite de Systèmes, JFPDA'06., May 2006, Toulouse, France. pp.107-114. ⟨hal-00339340⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS UNIV-FCOMTE FEMTO-ST TDS-MACS LABEXIMU

109 Consultations

666 Téléchargements

Choix de la fonction de renforcement et des valeurs initiales pour accélérer les problèmes d'Apprentissage par Renforcement de plus court chemin stochastique.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager