A neural reinforcement learning model for tasks with unknown time delays

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

Abstract

  我们提出了一个基于生物学的神经模型,能够在复杂的任务中执行强化学习。该模型的独特之处在于,它能够在一个行动、状态转换和奖励之间存在未知和可变时间延迟的环境中,解决需要智能体执行一系列未经奖励的操作以达到目标的任务。具体来说,这是第一个能够在半马尔可夫决策过程(Semi-Markov Decision Process,SMDP)框架内发挥作用的强化学习神经模型。我们认为,当前建模工作的这种扩展为人类决策的日益复杂的模型奠定了基础。

Keywords: 强化学习;神经模型;SMDP

1. Introduction

2. Background

3. Methods

3.1 Model architecture

3.2 Representing and computing with neural activities

3.3 Learning

3.4 Error calculation

4. Results

5. Discussion

猜你喜欢

转载自www.cnblogs.com/lucifer1997/p/12944231.html
今日推荐