Vers des architectures acteur-critique neuronales efficaces en données

Matthieu Zimmer 1, 2 Yann Boniface 1 Alain Dutech 2
1 CORTEX - Neuromimetic intelligence
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
2 MAIA - Autonomous intelligent machine
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
Résumé : Un nouvel algorithme d'apprentissage par renforcement, traitant à la fois des espaces conti-nus d'états et d'actions, est proposé. Il ne nécessite pas de connaître a priori des états buts ou de bonnes trajectoires pour fonctionner. Les besoins en connaissances expertes sur le domaine appliqué sont mi-nimales grâce à l'emploi d'estimateur non-linéaire : des réseaux de neurones. Ce nouvel algorithme est on-policy, hors-ligne, sans modèle de l'environnement. Il produit des politiques stationnaires en temps discret et déterministes en maximisant la somme actualisée des récompenses. Des résultats ex-périmentaux montrant la bonne performance de l'algorithme sont présentés sur deux environnements déterministes : acrobot et cartpole.
Type de document :
Communication dans un congrès
Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, Jul 2016, Grenoble, France. 2016, 〈http://jfpda2016.imag.fr/〉
Liste complète des métadonnées

Littérature citée [13 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01344905
Contributeur : Matthieu Zimmer <>
Soumis le : mardi 12 juillet 2016 - 18:06:55
Dernière modification le : jeudi 11 janvier 2018 - 06:25:23

Fichier

jfpda_2016_paper_12.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01344905, version 1

Citation

Matthieu Zimmer, Yann Boniface, Alain Dutech. Vers des architectures acteur-critique neuronales efficaces en données. Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, Jul 2016, Grenoble, France. 2016, 〈http://jfpda2016.imag.fr/〉. 〈hal-01344905〉

Partager

Métriques

Consultations de la notice

228

Téléchargements de fichiers

141