Des comportements flexibles aux comportements habituels : Meta-apprentissage neuro-inspiré pour la robotique autonome - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2016

From flexible to habitual behaviors: neuro-inspiré meta-learning for autonomous robotics

Des comportements flexibles aux comportements habituels : Meta-apprentissage neuro-inspiré pour la robotique autonome

Résumé

In this work we propose to integrate the notion of behavioural habit into a robot control architecture along with its learning mechanism. Robot control architectures address the problem of embodiment of the planning and decision capabilities of the robot. They coordinate motor and decisional capabilities so that the robot is reactive to its environment and also able to deal with long-term goals (Kortenkamp and Simmons, 2008). However, these architectures lack learning capabilities to integrate previous experiences of the robot despite these experiences being critical for deliberation (Ingrand and Ghallab, 2014). In neuroscience and psychology, learning has also be shown as a key ability of living organisms to adapt to changing environments, but also to better behave in stable environments (Dickinson 1985). The different learning processes are modelled with model-based and model-free reinforcement learning (Sutton and Barto, 1998) and appear to be combined to benefit for their properties depending on the environment stability (Daw et al. 2005). We propose a robot control architecture inspired from the computational neuroscience models integrating both a planning capability and a habit learning capability. We show that from a robotic point of view the combination of these algorithms increases performance robustness against environmental changes . However, the hypothesis from neuroscience models that the planning capability allow for better decision than using habit does not hold directly. We then propose a set of arbitration methods to combine these capabilities (planning and habit) depending on the information accessible to the robot, allowing self-monitoring of the learning. These methods do not improve the overall performance but allow to better study the constraints on using the planning capability. Finally, our architecture is evaluated in other tasks in order to assess the generality of the approach and is shown to improve the learning speed in several kind of tasks.
Dans cette thèse, nous proposons d’intégrer la notion d’habitude comportementale au sein d’une architecture de contrôle robotique, ainsi que les mécanismes qui permettent de l’acquérir en parallèle du comportement planifié. Les architectures de contrôle robotiques adressent la question, dans le cadre robotique, d’incarner dans le monde réel le processus de planification des actions du robot. Elles coordonnent les capacités motrices de ce dernier avec ses capacités décisionnelles afin de rendre le comportement du robot réactif à son environnement mais également capable de prendre des décisions pour accomplir des buts à long terme (Kortenkamp et Simmons 2008). Or, ces architectures sont pas ou peu dotées de capacités d’apprentissage leur permettant d’intégrer les expériences précédentes du robot, fonction qui est pourtant essentielle à la délibération (Ingrand et Ghallab 2014). En neurosciences et en psychologie, l’apprentissage confirme cette idée : il a été montré comme une capacité essentielle pour adapter le comportement à des contextes changeants, mais également pour exploiter au mieux les contextes stables (Dickinson 1985). Les différents types d’apprentissage sont modélisés par des algorithmes d’apprentissage par renforcement direct et indirect (Sutton et Barto 1998), combinés pour exploiter leurs propriétés au mieux en fonction du contexte (Daw et al. 2005). Nous proposons premièrement une architecture de contrôle robotique inspirée de ces modèles, qui intègre en parallèle une capacité à planifier, à l’instar du comportement et la capacité d’apprendre et d’utiliser des habitudes comportementales. Nous montrons que, d’un point de vue robotique, la combinaison de ces algorithmes offre un avantage face à un changement de condition dans la tâche, en terme de robustesse de la performance. En revanche, l’hypothèse faite par les modèles du vivant que la capacité de planification permet de prendre des décisions plus informées que lorsque le comportement est habituel ne s’applique pas. Dans un second temps, nous proposons une série de méthodes pour coordonner ces capacités en fonction de l’information qu’à l’agent sur la stabilité du contexte. Ces méthodes n’améliorent pas la performance du robot en soi, mais nous permettent de mieux identifier les contraintes liées à la planification. Dans une troisième partie, nous étendons l’étude de notre architecture à d’autres tâches afin de généraliser l’intérêt de cette notion d’habitude pour la robotique, et confirmons qu’elle permet d’améliorer l’apprentissage du robot.
Fichier principal
Vignette du fichier
RenaudoPhD.pdf (13.55 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-01698240 , version 1 (01-02-2018)

Identifiants

  • HAL Id : tel-01698240 , version 1

Citer

Erwan Renaudo. Des comportements flexibles aux comportements habituels : Meta-apprentissage neuro-inspiré pour la robotique autonome . Robotique [cs.RO]. Université Pierre et Marie Curie (Paris 6), 2016. Français. ⟨NNT : ⟩. ⟨tel-01698240⟩
137 Consultations
133 Téléchargements

Partager

Gmail Facebook X LinkedIn More