强化学习——将会颠覆机器学习还是一套小家子主意

有这样一种situation——我们需要根据此时的环境做出相应的行动,aim在于实现预期目标。

situation可以这样表示:

for(iter=START;iter!=END;iter++)  #某个时间段
      f(observation)              #根据此刻观察到的环境采取相应行为

f(x)指的是从“此刻观察到的环境”到“采取某个特定的行为”的映射。

需要解决的问题是:找到最好的f(x)——“最好”指让我们最快实现目标。

然后有人开始对此进行探索,尝试用算法来让机器解决这个问题,拥有这个能力。称之为强化学习(Reinforcement learning)。

 (未完待续)

猜你喜欢

转载自www.cnblogs.com/dynmi/p/11827093.html
今日推荐