1、介绍:明天去打球还是学习?(分类问题)
如果打球(惩罚 -1),如果学习(奖励 +1)。
2、强化学习包含:
- 智能体(agent)
- 状态(state)
- 行为(action)
- 奖励(reward)
- 策略(policy)
3、马尔科夫链:
4、强化学习:
(Rsa + γ【折扣因子】∑s'∈SPss'a v π(s'))
当前奖励+下一步价值
【P是状态转移概率 :当前状态是s,动作是a,达到下一个状态s'的概率】
如果打球(惩罚 -1),如果学习(奖励 +1)。
(Rsa + γ【折扣因子】∑s'∈SPss'a v π(s'))
当前奖励+下一步价值
【P是状态转移概率 :当前状态是s,动作是a,达到下一个状态s'的概率】