Deep TAMER问题导引

需要调研

  1. 范例学习,逆向强化学习,奖励塑形
  2. 此外,强化学习领域最近通过深度学习中的新函数逼近技术取得了重大突破(Krizhevsky, Sutskever, and Hinton 2012; LeCun, Bengio, and Hinton 2015)。
  3. 好好补一补深度学习基础以及吴恩达的网课。
  4. 值得注意的是, (Christiano等人在2017年)对深度学习和人机交互进行了研究。**在他们的研究工作中,深度学习被应用于一种范例,在该范例中,agent积极询问人类从而比较学习过程中的行为示例虽然这项工作实际上与我们的非常相似
  5. 在本文中,我们关注回答以下具体问题:使用深度神经网络会对高维状态空间下的实时、标量性的人机交互学习带来什么影响?
  6. 尽管我们将采用与(Knox and Stone 2009)类似的阐述 (?又与人家的雷同了?)
  7. 我们把本文研究的问题归类为在线监督学习,我们把观测视为随机变量的实现,并寻求在统计意义上最小化损失。 弄清楚什么叫online learning,监督学习。理解这句话的意思:为什么把观测视为统计意义上的实现。
  8. l ( H ^ ; x , y ) = w ( t s , t e , t f ) [ H ^ ( s , a ) h ] 2 l(Ĥ ; x, y) = w(t^s , t^e , t^f ) [ Ĥ(s, a) − h]^2 这个损失函数是本文作者自己定义的还是有标准规范的?

猜你喜欢

转载自blog.csdn.net/weixin_41913844/article/details/85330821