第一章 理解强化学习的数学基础:马尔可夫决策过程(MDP)
1.1 什么是强化学习的"骨架"
强化学习的核心问题可以抽象为:智能体(Agent)如何通过与环境(Environment)的持续交互,找到最大化长期收益的最优策略。马尔可夫决策过程(Markov Decision Process, MDP)正是描述这一过程的数学框架。
一个完整的MDP由以下五元组定义:
- 状态集合(S):环境可能存在的所有状态
- 动作集合(A):智能体可以执行的所有动作
- 转移概率(P):P(s’|s,a)表示在状态s执行动作a后转移到状态s’的概率
- 奖励函数(R):R(s,a,s’)表示在状态s执行动作a后转移到状态s’时获得的即时奖励