Deep TAMER问题导引 - 代码天地

Deep TAMER问题导引

其他 2018-12-31 02:02:33 阅读次数: 0

需要调研

范例学习，逆向强化学习，奖励塑形
此外，强化学习领域最近通过深度学习中的新函数逼近技术取得了重大突破(Krizhevsky, Sutskever, and Hinton 2012; LeCun, Bengio, and Hinton 2015)。
好好补一补深度学习基础以及吴恩达的网课。
值得注意的是， (Christiano等人在2017年）对深度学习和人机交互进行了研究。**在他们的研究工作中，深度学习被应用于一种范例，在该范例中，agent积极询问人类从而比较学习过程中的行为示例。虽然这项工作实际上与我们的非常相似
在本文中，我们关注回答以下具体问题：使用深度神经网络会对高维状态空间下的实时、标量性的人机交互学习带来什么影响？
尽管我们将采用与（Knox and Stone 2009）类似的阐述（？又与人家的雷同了？）
我们把本文研究的问题归类为在线监督学习，我们把观测视为随机变量的实现，并寻求在统计意义上最小化损失。 弄清楚什么叫online learning，监督学习。理解这句话的意思：为什么把观测视为统计意义上的实现。
$l(Ĥ ; x, y) = w(t^s , t^e , t^f ) [ Ĥ(s, a) − h]^2$ 这个损失函数是本文作者自己定义的还是有标准规范的？

猜你喜欢

转载自blog.csdn.net/weixin_41913844/article/details/85330821

Deep TAMER问题导引

Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces

分页及deep paging问题

Deep Learning 基础 -- 类别不均衡问题

App Tamer for mac常见问题

and /deep/ combinators have been deprecated. Use :deep() instead问题解决

导引

【CS229 Deep Learning笔记】二. 介绍：分类问题

ElasticSearch教程——Search相关、deep paging问题及解决方案

elasticsearch 笔记十二：分页搜索，deep paging 问题

Neural network and deep learning阅读笔记（5）梯度消失问题

【Deep Learning 】深度模型中的优化问题（一）SGD

Elasticsearch系列---搜索分页和deep paging问题

Youtube经典论文相关问题《Deep Neural Networks for YouTube Recommendations》

解决：::v-deep usage as a combinator has been deprecated. Use :deep(＜inner-selector＞) instead 的警告问题

Deep Link

Deep color

deep motivation

Deep Learning

Deep Sort

Deep SORT - deep_sort

第二课:Improving Deep Neural Networks 第一周：测验 Practical aspects of deep learning 10 个问题

第一课:Neural Networks and Deep Learning 第四周：测验 Key concepts on Deep Neural Networks 10 个问题

第一课:Neural Networks and Deep Learning 第一周：测验 Introduction to Deep Learning，10个问题

Neural Networks and Deep Learning之中文翻译-关于练习与问题

第十一篇 elasticsearch的分页搜索和deep_paging性能问题

【CS229 Deep Learning笔记】一. 介绍：线性回归问题

Python面试问题整理[快速排序、copy和deep copy]

Deep Learning 之训练过程中出现NaN问题

从one-shot问题的解法发现新的deep learning应用思路

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)