强化学习--QLearning - 代码天地

强化学习--QLearning

其他 2019-01-08 14:58:03 阅读次数: 0

1.概述：

QLearning基于值函数的方法，不同与policy gradient的方法，Qlearning是预测值函数，通过值函数来选择

值函数最大的action，而policy gradient直接预测出action。

2一些定义

2.1值函数

Given an actor π, it evaluates how good the actor is

有2种值函数，V(S) 、Q(s,a).

2.1.1 V(S)

有2种衡量的方法：

MC方法只能等玩完一个episode才能进行统计评价，效率比较低。

TD方法可以每玩一步就更新一次。

mc与td对比，mc需要估计的是一个episode的值函数，方差比较大，而td是与时间相关的，只有r是需要估计的，方差比较小。

下面看一下例子：

V(Sb)=6/8=1

MC: V(Sa)=0/2=0

TD: V(Sa)=V(Sb)+0=3/4

2.1.2 Q(s,a）

我们可以评估，在当前状态s，采取行动a，在接下来的游戏中获得得奖励累计和的期望为Q(s,a)。但在接下来的游戏中，

不一定采取行动a,而是采取Q值最大的行动。

下图中1，无论采取那个行动都无所谓，因为离球还很远，而图2离球比较近了，我们需要向上接到球，接下来游戏才能获得奖励。

猜你喜欢

转载自www.cnblogs.com/zle1992/p/10238930.html

强化学习——Qlearning

强化学习--QLearning

强化学习QLearning演示

强化学习——Qlearning——value based

强化学习 Qlearning小例子

强化学习（1）-Qlearning和policygradient

西瓜书强化学习QLearning算法与网上版本比较

强化学习之sarsa 和qlearning 实现

强化学习和Q-learning在实际应用中的价值 Reinforcement learning and Qlearning fundamentals

强化学习从基础到进阶-案例与实践[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

强化学习从基础到进阶-常见问题和面试必知必答[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

【强化学习】强化学习分类

【强化学习】强化学习介绍

[强化学习]强化学习基础

强化学习的学习～

强化学习学习

强化学习步骤

WAF 强化学习

强化学习介绍

强化学习

强化学习的资料

强化学习基础

强化学习总结

强化学习笔记

强化学习-入门

深度强化学习

强化学习（二）

强化学习概览

强化学习实例

强化学习综述

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)