Généralisation et apprentissage latent dans les systèmes de classeurs
Résumé
La principale originalité des systèmes de classeurs vis-à-vis d’autres techniques d’apprentissage par renforcement est leur capacité de généralisation. Dans cet article, nous présentons les différences entre plusieurs types de systèmes de classeurs. Alors que certains traitent directement les problèmes d’apprentissage par renforcement, d’autres apprennent un modèle de la dynamique des interactions entre l’agent et son environnement. Un tel modèle peut être utilisé pour accélérer l’apprentissage par renforcement proprement dit, si bien que ces deux types d’apprentissage sont complémentaires. Nous montrons ici que le concept de généralisation est très différent selon que le système anticipe (comme ACS ou YACS) ou non (comme XCS).Nous montrons en outre certaines limitations du formalisme utilisé par ACS et YACS, et nous en proposons un nouveau, propre à modéliser de nouvelles régularités. Nous décrivons MACS, un nouveau système de classeurs qui utilise ce formalisme pour l’apprentissage latent et nous comparons expérimentalement MACS avec YACS.