A Finite-Time Analysis of Multi-armed Bandits Problems with Kullback-Leibler Divergences - Archive ouverte HAL Accéder directement au contenu
Rapport (Rapport Technique) Année : 2011

A Finite-Time Analysis of Multi-armed Bandits Problems with Kullback-Leibler Divergences

Résumé

We consider a Kullback-Leibler-based algorithm for the stochastic multi-armed bandit prob- lem in the case of distributions with nite support, whose asymptotic regret matches the lower bound of Burnetas and Katehakis (1996). Our contribution is to provide a nite-time analysis of this algorithm.
Fichier principal
Vignette du fichier
2011_-_COLT_-_BanditsKL.pdf (263.43 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00574987 , version 1 (09-03-2011)
inria-00574987 , version 2 (27-05-2011)

Identifiants

  • HAL Id : inria-00574987 , version 1

Citer

Odalric-Ambrym Maillard, Rémi Munos, Gilles Stoltz. A Finite-Time Analysis of Multi-armed Bandits Problems with Kullback-Leibler Divergences. [Technical Report] 2011, pp.18. ⟨inria-00574987v1⟩
396 Consultations
242 Téléchargements

Partager

Gmail Facebook X LinkedIn More