Machine Learning & 概率 & 随机变量 & 概率分布 & 事件的独立性

概率于Machine Learning而言还是比较重要的,但是概率的难点在于,其不够直观,那么换一个视角,我们称之为"上帝视角",将概率转化为面积,这样便会变的直观;

1.概率的定义

概率,顾名思义就是某事件发生可能性的一种量化,这是我们最直观的感受;

下面从一个比较经典的案例来作为引入 --- 蒙提霍尔问题:

有ABC三扇门,其中有一扇是正确的门,打开有一辆豪车,其余两扇,门为错误的门,门内有山羊:
前提:骰子1,2对应门1;骰子3,4对应门2,骰子5,6对应门3

    1. 主持人通过投骰子,决定将豪华车放入哪个门内
    1. 选手通过掷骰子决定打开那一扇门
    1. 选手选择完毕之后,主持人会打开剩余两扇门中错误的一扇门,然后询问选手是否改变主意

下面来看概率:

  • 如果第一次选择正确,重选必定错误
  • 如果第一次选择错误,重选必定正确

所以"第一次选择错误"的概率就是"重选后正确"的概率,其重选的正确率就是 2/3

但是其实也会有另一种误区:

第一选择完毕后,主持人打开一个错误的门,那么此时就剩下一个错误的门和一个正确的门,此时重选的概率就是:
假如主持人打开的错误门是门1;

  • 门2是正确答案的概率: 1/2
  • 门3是正确答案的概率: 1/2

但是仔细一想,这种概率是建立在,选手没有进行第一次选择的基础上进行的;

2.飞艇角度来看蒙提霍尔问题

正如上面的误区,概率是一个抽象的东西,有时候我们会掉进这个误区中出来

概率是一种抽象的概念,如果我们仅仅凭直觉判断,很难清晰理解它的本质

我们的思路是这样:
1.转换视角来看待这个问题(这里是飞艇视角)
2.尽量把问题转换成一种可以实际衡量的形式

场景是这样的:
  • 将剧本设定为360个会场中有120个会场的门1是正确答案,120个会场的门2是正确答案,120个会场是门3是正确答案
  • 然后门1是正确答案120个会场中,有40个挑战者选择门1,有40个挑战者选择门2,有40个挑战者选择门3
挑战者选择门1 挑战者选择门2 挑战者选择门3
主持人 打开门2 打开门3 打开门1 打开门3 打开门1 打开门2
门1是正确答案 20个会场 20个会场 0个会场 40个会场 0个会场 40个会场
门2是正确答案 0个会场 40个会场 20个会场 20个会场 40个会场 0个会场
门3是正确答案 40个会场 0个会场 40个会场 0个会场 20个会场 20个会场

根据上表,我们来复原刚刚的误区:

  • 1.挑战者选择门3
  • 2.主持人打开门1的有60个会场
  • 3.其中门2是正确答案是40个,门3是正确答案是20个,所以证明刚刚是错误的
3.上帝视角来看概率
  • 这时候我们需要来看一个概念三元组:

    何为上地视角,其实就是一种鸟瞰的视角,每一个会场(其实就是一个世界,也可以认为一种可能出现的场景就是一个世界),对于特定的世界来说,当前世界的剧本已经被锁定;
    举一个简单的例子:
    随机投一枚骰子,共有6种结果:结果为1是一个世界,结果为2也是一个世界,同理3,4,5,6 亦是如此...,而我们从"上地视角",俯瞰这些世界;

  • 场景:投硬币

5792828-956da0244ca0154f.png
概率.png
  • 每个世界的抛硬币的结果是永远不变的
  • 然后人们不知道身处哪一个世界,所以不确定性就会产生

到目前为止,我们便已经将一个抽象的概念:概率,转化为一个可量化的概念(面积量化)

这里我们来用几个数学符号:




这样的话就知道三元组的第一个和第三个参数意义,第二个参数这里暂且跳过

这样概率便转化为面积,任何量化的东西,要比抽象的概念理解起来更加舒服,深刻;

4.随机变量 & 概率分布

4.1 随机变量

注意这里的子集A仅仅是平面上的一个点,我们称为样本点或者基本事件会更加合适一些,打个比方,投掷硬币为正面向上的区域有无数个点,而当前的事件应该是正面朝上的事件,而点A仅仅是构成事件的样本点而已;

4.2 概率分布

随机变量是基于具体的平行世界的,相对的概率分布只考虑面积,比如投掷硬币:

  • 正面:0.5
  • 反面:0.5
5.事件的独立性

其实可以这样表述这个定义:事件A和时间B,如果P(A|B) = P(A|非B),那么我们就认为事件A和事件B相互独立

下面来介绍几个等价表诉:

  • A与B相互独立
  • P(A|B) = P(A|非B)
  • P(A|B) = P(A)
  • P(A,B) = P(A)P(B)
  • P(A,B):P(A,非B) = P(非A,B):P(非A,非B)

所以判断事件A B 是否独立可以利用上诉的任意等价表诉来进行判断

转载于:https://www.jianshu.com/p/febc7f5b0bcb

猜你喜欢

转载自blog.csdn.net/weixin_33978044/article/details/91215876