从强化学习看我的人生世界观

自己颓了很长的时间,这时间换做以前精力充沛效率高超的自己不知道这段时间能做出多少东西来..

以前还有阿Q精神来激励自己.. 现在都没了,一点也提不起来。

以前看强化学习的东西,它的核心


奖励policy:state -> choose action ->reward -> next state

状态转移:Qi-1 -> Qi -> Qi+1

越来越让我觉得像人生,越来越觉得只有强化学习才算得上真正的人工智能……

这几年一直努力,却没有什么reward。那这样.. 还怎么成长?

成长就是reward,会走路,受到鼓励,做错事有penalty...如果



但是我自己的世界观和方法论完全对不上。

世界观1:


y——你的成就

K——家庭背景资源

x——你的努力

b——家庭出身

很好解释,有钱人家不仅会提高你的起点,还会放大你的努力。付出同样的努力,一般人也就考个985,但是有钱人家的孩子可以上伯克利……

就好比你摆个地摊和王思聪开个娱乐公司难度一样。

自己先天条件就不好,要比常人更努力,却没做到,运气也差,

我的世界观1让我思考出了世界观2……

世界观2:

以前有个男生问我,“为什么我在交大,这男女比例,找女朋友这么难,而且那些女孩子眼光这么高,要求这么多?”

我说:“如果你现在在上财,女多男少,那你是不是找女孩子要容易很多,可是谁让你当初报交大呢..你要是考虑到了这点你去报上财呗,可是你放弃了性别比例的优势,为了交大是985报了交大,所以你要忍受这点。”


增强学习的样本是一个时间序列,因此引入MDP(Markov Decision Process)马尔科夫决策过程

也就是,一个状态St是Markov当且仅当 


P为概率。

简单的说就是下一个状态仅取决于当前的状态和当前的动作。那么你当前的状态又取决于你之前的状态。所以我们现在在做什么,我们的生命轨迹,从一出生就已经决定好了。




我们现在在一个不错的公司上班,是因为我们之前努力刷题,

我们之前努力刷题,是因为我们身边人都在刷题,

我们身边人都在刷题,是因为我们在一个就业氛围很好的班级

我们在这样的班级里,是因为我们认清了自己想要做什么,

我们能认清自己想做的,是因为大二的时候某次会谈,认识了很多人,忽然就明晰了自己的目标

参加会谈,是因为自己想开阔眼界

想开阔眼界,是因为想让自己变得更好

因为我们高中的时候就特别努力,不想被别人看低

因为我们初中的时候经常被人嘲笑,所以想逆风翻盘

我们小时候出生的时候,家境不好,但是父母非要上一个好学区的好学校,而那个好学校的富二代经常笑话我们..

我们的父母从小就没怎么接受过教育,所以一定要让我们上一个好学校……

我们父母的父母60年代70年代遭受了迫害……

父母的父母的父母…………


我承认这种世界观有的时候会让人觉得很可怕,因为如果我失败了,我会用一切是注定的借口安慰自己,但是我成功了我也认为一切都是命中注定的,我不会归咎于自己的努力。因为对我来说,“一分耕耘一分收获”就是毒鸡汤。我不是唯心论,真的不是。只是我觉得科学和唯心论不矛盾。

所以我认为世界上没有坏人,他变成这个样子是已经注定好的……这并不是圣母,因为圣母是一面心软,而我是两面的,我不同情那些所谓的“坏人”,也不吹捧所谓的“好人”,只是认为他们都是注定好的,看待问题的时候会平静一些。

所以我的世界观2,会让我在世界观3很迷茫……

世界观3:

知乎里有个帖子说的很好,人是结果论,而不是过程,太注重结果,忽略享受过程,而一直得不到reward,就会逐渐心累,低迷,最后陷入颓废的死循环...

在qlearning的更新算法里,会有一个参数ε来限制贪心算法,当ε=0.9,每次你有0.9的概率向reward最大的那个方向走(do action),但是会有0.1的概率往一个你没探索过的地方走..

假如我们的小鸟在训练过程中,每次都采取当前状态效用值最大的动作,那会不会有更好的选择一直没有被探索到?小鸟一直会被桎梏在以往的经验之中。而假若小鸟在这里每次随机选取一个动作,会不会因为探索了太多无用的状态而导致收敛缓慢?

机器貌似比人聪明了..人就比如说我经常就是被那种reward桎梏在一个地方...

以前申请学校,老是想自己GPA低担心自己申不到什么好学校,太在意那个结果… 自己并不是名校控,可是感觉只有名校才能给人reward……

上了有的课又觉得没用,不想去上,在意上课带来的reward。

所以每个网瘾少年..也不是错..游戏吸引人是因为他能给你reward……所以能戒掉游戏的不是制止力,是做别的事情带来的reward……我认识很多网瘾少年,每个都很优秀,闭眼上清北的那种,还是专业第一,只是那么能及时带给他们的reward而已……

所以知乎大哥说,人要享受过程,你不要太在意结果,确实,从小我们就知道努力,好好学习,有奖励;努力然后发糖给你带来动力,可是总有不发糖的时候……


说了很多,大家随便看看吧,希望能够帮助一些生活不顺的人的启发。我只是阐述自己的世界观,并没有强制输出给谁,如果不一样,欢迎讨论,不过世界观这个真的很难得到认同,以后还是多聊聊方法论吧。

继续去撸代码了.. 


猜你喜欢

转载自blog.csdn.net/serena9636/article/details/80957821