Explore First, Exploit Next: The True Shape of Regret in Bandit Problems

Abstract : We revisit lower bounds on the regret in the case of multi-armed bandit problems. We obtain non-asymptotic, distribution-dependent bounds and provide straightforward proofs based only on well-known properties of Kullback-Leibler divergences. These bounds show in particular that in an initial phase the regret grows almost linearly, and that the well-known logarithmic growth of the regret only holds in a final phase. The proof techniques come to the essence of the information-theoretic arguments used and they are deprived of all unnecessary complications.
Type de document :
Pré-publication, Document de travail
2016
Liste complète des métadonnées

Littérature citée [18 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01276324
Contributeur : Gilles Stoltz <>
Soumis le : jeudi 16 juin 2016 - 18:13:17
Dernière modification le : mercredi 29 novembre 2017 - 16:01:43

Fichiers

Bandit-lower-bounds-June-2016....
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01276324, version 2
  • ARXIV : 1602.07182

Citation

Aurélien Garivier, Pierre Ménard, Gilles Stoltz. Explore First, Exploit Next: The True Shape of Regret in Bandit Problems. 2016. 〈hal-01276324v2〉

Partager

Métriques

Consultations de la notice

309

Téléchargements de fichiers

151