强化学习（4）----简介

其他 2020-07-23 17:15:08 阅读次数: 0

视频：David Silver深度强化算法学习 +项目讲解

书籍：reinforcement learning

博客：https://blog.csdn.net/lagrangesk/article/details/80943045

一、强化学习

人类通常从与外界环境的交互中学习。

当我们在开车或者聊天时，我们会意识到自身行为会收到环境的反馈，然后根据行为去得到想要的结果。

强化学习是指从环境状态到行为映射的学习以使系统行为从环境中获得的累积奖励值最大。强化学习描述的是一个与环境交互的学习过程。

以人开车为例，将人和车作为一个整体（agent)，外界红绿灯、车道线等信息构成了环境（environment)，然后人通过控制车辆向左、向右转弯或者直行的动作（action)，影响了这个环境的状态（state)，比如说前方有车，向右转弯后车道前没有车辆，这就说明车辆的动作影响了环境的状态。

但是，仅仅有了agent、environment、state和action还不够，需要有一个奖惩来指导agent的行动，这就是reward，比如车辆闯红灯会收到罚单。那么说到这里，大家一定很好奇：reward是如何指导强化学习的呢？首先我们要从强化学习的特性说起。

强化学习的两个重要特性：

试措搜索（trial -and-error search)
延期强化（deplayed reinforcement）

强化学习模型：

猜你喜欢

转载自www.cnblogs.com/Lee-yl/p/13367291.html

强化学习（4）----简介

强化学习简介

UCBerkeley 深度强化学习-强化学习简介Lec4

强化学习（1）----简介

强化学习(一)：简介

强化学习入门简介

强化学习（一）——简介

强化学习系列（一）：强化学习简介

重温强化学习之强化学习简介

强化学习系列1：强化学习简介

强化学习(一)：简介——什么是强化学习？

【强化学习知识】强化学习简介

【强化学习】01—— 强化学习简介

深度强化学习之简介

RL— 深度强化学习简介

强化学习 4. 动态规划

4、强化学习--model free 控制

2019年伯克利大学 CS294-112《深度强化学习》第4讲：强化学习简介（笔记)

强化学习学习笔记（一）：入门简介

【强化学习】强化学习介绍

【强化学习】强化学习分类

[强化学习]强化学习基础

强化学习之Q-learning简介

《强化学习》第一讲：简介

David Silver强化学习公开课（一）：简介

强化学习简介及马尔科夫决策过程

强化学习的学习～

强化学习学习

强化学习步骤

WAF 强化学习

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)