强化学习(1)----简介

1、介绍:明天去打球还是学习?(分类问题)

如果打球(惩罚 -1),如果学习(奖励 +1)。

2、强化学习包含:

  • 智能体(agent)
  • 状态(state)
  • 行为(action)
  • 奖励(reward)
  • 策略(policy)

 3、马尔科夫链:

 

4、强化学习:

Rsa + γ【折扣因子】∑s'∈SPss'a v π(s')

当前奖励+下一步价值

【P是状态转移概率 :当前状态是s,动作是a,达到下一个状态s'的概率】

 

猜你喜欢

转载自www.cnblogs.com/Lee-yl/p/9649247.html