强化学习 1.导论 - 代码天地

强化学习 1.导论

其他 2019-10-27 16:50:51 阅读次数: 0

1. 基本介绍

1.1 基本思想

智能体为了实现目标而不断与环境产生交互的过程中，抓住智能体所面对的真实问题的主要方面。具备学习能力的智能体必须在某种程度上感知环境的状态，然后采取动作并影响环境状态，智能体必须同时拥有和环境状态有关的一个或多个明确的目标。

1.2 关键特征

试探与开发的这种权衡
明确考虑了目标导向的智能体与不确定环境交互这整个问题

1.3 特点

我们无法完全预测动作的影响，因此智能体必须频繁监视其环境并作出适当的反应
涉及明确的目标，智能体可以根据这个目标来判断进展
智能体可以利用其经验来改进性能

2. 强化学习要素

2.1 策略

策略定义了学习智能体在特定时间的行为方式，是环境状态到动作的映射，一般来说，可能是环境所在状态的基础上，选择动作的随机分布

2.2 收益信号

收益信号定义了强化学习问题中目标，每一步，环境向智能体发送一个称为收益的标量数值，智能体唯一目标是最大化长期总收益。因此收益信号是改变策略的主要基础。一般来说，收益信号可能是关于环境状态和在此基础上所采取动作的随机函数，即func(状态,动作)。

2.3 价值函数

收益信号表明了短时间什么是好，而价值函数表明从长远角度看什么是好。总的来说，一个状态的价值是一个智能体从这个状态开始，对将来积累收益的总期望，，其作为对收益的预测。在制定和评估策略时，我们最关心的是价值。

2.4 对环境建立的模型【可选】

对环境的反应模式的模拟，其允许对外部环境的行为进行判断。例如，给定一个状态和做动作，模型可以预测环境的下一个状态和下一个收益

猜你喜欢

转载自www.cnblogs.com/ximelon/p/11747976.html

强化学习 1.导论

强化学习1.导论

强化学习（1）

强化学习(1)

【强化学习笔记】1.绪论

强化学习通俗导论（一）：什么是强化学习

强化学习（1）----简介

强化学习系列1：强化学习简介

深度强化学习1——强化学习到深度强化学习

强化学习导论——Policy Gradient Methods

强化学习PARL——1. 简单认识

强化学习介绍--系列文章1

揭秘深度强化学习-1简述

【强化学习】1-1-0 强化学习介绍【强化学习】1-1-0 强化学习介绍

AI强化学习随笔（1）

强化学习笔记1 （20181027）

强化学习（1）-Qlearning和policygradient

强化学习笔记1——MDP

强化学习总结（1）———Q Learning

强化学习1 代码部分

GAN深度强化学习1

强化学习笔记（1）—— 概括与基础

强化学习代码实战（1）--- 介绍

强化学习导论（Reinforcement Learning：An Introduction）学习笔记（二）

强化学习导论（Reinforcement Learning：An Introduction）学习笔记（五）

【深度学习】对强化学习的理解（在CartPole-v1游戏下的强化学习）

强化学习学习[1]——基于蒙特卡罗的强化学习方法

深度学习之强化学习（1）强化学习案例

深度强化学习第1课｜强化学习入门

[强化学习] Part1_强化学习初印象

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)