【第六部分:项目实战与部署】【21.强化学习实战:从Q-Learning到AlphaGo】

在这里插入图片描述

第一章 理解强化学习的数学基础:马尔可夫决策过程(MDP)

1.1 什么是强化学习的"骨架"

强化学习的核心问题可以抽象为:智能体(Agent)如何通过与环境(Environment)的持续交互,找到最大化长期收益的最优策略。马尔可夫决策过程(Markov Decision Process, MDP)正是描述这一过程的数学框架。

一个完整的MDP由以下五元组定义:

  • 状态集合(S):环境可能存在的所有状态
  • 动作集合(A):智能体可以执行的所有动作
  • 转移概率(P):P(s’|s,a)表示在状态s执行动作a后转移到状态s’的概率
  • 奖励函数(R):R(s,a,s’)表示在状态s执行动作a后转移到状态s’时获得的即时奖励

猜你喜欢

转载自blog.csdn.net/shaoyezhangliwei/article/details/147063941
今日推荐