Robustness of Anytime Bandit Policies

Antoine Salomon 1, 2 Jean-Yves Audibert 1, 2
1 IMAGINE [Marne-la-Vallée]
CSTB - Centre Scientifique et Technique du Bâtiment, LIGM - Laboratoire d'Informatique Gaspard-Monge, ENPC - École des Ponts ParisTech
Abstract : This paper studies the deviations of the regret in a stochastic multi-armed bandit problem. When the total number of plays n is known beforehand by the agent, Audibert et al. (2009) exhibit a policy such that with probability at least 1-1/n, the regret of the policy is of order log(n). They have also shown that such a property is not shared by the popular ucb1 policy of Auer et al. (2002). This work first answers an open question: it extends this negative result to any anytime policy. The second contribution of this paper is to design anytime robust policies for specific multi-armed bandit problems in which some restrictions are put on the set of possible distributions of the different arms.
Type de document :
Pré-publication, Document de travail
2011
Liste complète des métadonnées

Littérature citée [22 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-00579607
Contributeur : Antoine Salomon <>
Soumis le : lundi 25 juillet 2011 - 14:04:45
Dernière modification le : jeudi 5 juillet 2018 - 14:26:41
Document(s) archivé(s) le : dimanche 4 décembre 2016 - 09:07:24

Fichiers

anytime.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00579607, version 3
  • ARXIV : 1107.4506

Citation

Antoine Salomon, Jean-Yves Audibert. Robustness of Anytime Bandit Policies. 2011. 〈hal-00579607v3〉

Partager

Métriques

Consultations de la notice

566

Téléchargements de fichiers

122