Programmation dynamique avec approximation de la fonction valeur

Rémi Munos 1
1 SEQUEL - Sequential Learning
LIFL - Laboratoire d'Informatique Fondamentale de Lille, LAGIS - Laboratoire d'Automatique, Génie Informatique et Signal, Inria Lille - Nord Europe
Résumé : L'utilisation d'outils pour l'approximation de la fonction de valeur est essentielle pour pouvoir traiter des problèmes de prise de décisions séquentielles de grande taille. Les méthodes de programmation dynamique (PD) et d'apprentissage par renforcement (A/R) introduites aux chapitres 1 et 2 supposent que la fonction de valeur peut être représentée (mémorisée) en attribuant une valeur à chaque état (dont le nombre est supposé fini), par exemple sous la forme d'un tableau. Ces méthodes de résolution, dites exactes, permettent de déterminer la solution optimale du problème considéré (ou tout au moins de converger vers cette solution optimale). Cependant, elles ne s'appliquent souvent qu'à des problèmes jouets, car pour la plupart des applications intéressantes, le nombre d'états possibles est si grand (voire infini dans le cas d'espaces continus) qu'une représentation exacte de la fonction ne peut être parfaitement mémorisée. Il devient alors nécessaire de représenter la fonction de valeur, de manière approchée, à l'aide d'un nombre modéré de coefficients, et de redéfinir et analyser des méthodes de résolution, dites approchées pour la PD et l'A/R, afin de prendre en compte les conséquences de l'utilisation de telles approximations dans les problèmes de prise de décisions séquentielles.
Document type :
Book sections
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-00830192
Contributor : Rémi Munos <>
Submitted on : Tuesday, June 4, 2013 - 3:26:52 PM
Last modification on : Thursday, February 21, 2019 - 10:52:49 AM
Long-term archiving on : Thursday, September 5, 2013 - 4:23:23 AM

File

bouquinPDMIA.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-00830192, version 1

Collections

Citation

Rémi Munos. Programmation dynamique avec approximation de la fonction valeur. Processus décisionnels de Markov et intelligence artificielle, Hermes, pp.19-50, 2008. ⟨hal-00830192⟩

Share

Metrics

Record views

266

Files downloads

5076