Prise de décision contextuelle en bande organisée : Quand les bandits font un brainstorming

Robin Allesiardo 1, 2 Raphael Féraud 2 Djallel Bouneffouf 3, 4
1 TAO - Machine Learning and Optimisation
CNRS - Centre National de la Recherche Scientifique : UMR8623, Inria Saclay - Ile de France, UP11 - Université Paris-Sud - Paris 11, LRI - Laboratoire de Recherche en Informatique
Résumé : Dans cet article, nous proposons un nouvel algorithme de bandits contextuels, NeuralBandit, ne faisant aucune hypothèse de stationnarité sur les contextes et les récompenses. L'algorithme proposé utilise plusieurs perceptrons multicouches, chacun apprenant la probabilité qu'une action, étant donnée le contexte, entraine une récompense. A n de régler en ligne les paramètres de ces perceptrons multicouches, et notamment les architectures, nous proposons d'utiliser une approche multi-experts. Des tests sur des jeux de donné es synthé tiques et réels montrent l'apport de l'algorithme NeuralBandit par rapport a l' état de l'art.
Type de document :
Communication dans un congrès
Marc Sebban; Ludovic Denoyer; Amaury Habrard. CAP'14, Jul 2014, St-Etienne, France. pp.11-19, 2014
Liste complète des métadonnées

Littérature citée [18 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01055521
Contributeur : Djallel Bouneffouf <>
Soumis le : mercredi 13 août 2014 - 15:32:24
Dernière modification le : jeudi 7 février 2019 - 14:36:18
Document(s) archivé(s) le : mardi 11 avril 2017 - 19:37:51

Fichier

Quand_les_bandits_font_un_brai...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01055521, version 1

Citation

Robin Allesiardo, Raphael Féraud, Djallel Bouneffouf. Prise de décision contextuelle en bande organisée : Quand les bandits font un brainstorming. Marc Sebban; Ludovic Denoyer; Amaury Habrard. CAP'14, Jul 2014, St-Etienne, France. pp.11-19, 2014. 〈hal-01055521〉

Partager

Métriques

Consultations de la notice

317

Téléchargements de fichiers

299