[DA] 数据分析需要的一些概率论知识

1. 方差

σ 2 = ( X μ ) 2 N

2. 协方差

C o v ( X , Y ) = E [ ( X E ( X ) ) ( Y E ( Y ) ) ] = E [ X Y ] E [ X ] E [ Y ]
协方差就是看两个变量是否正负相关,也就是数值上变化是否同或反向.

3. 算数平均数

= x 1 + x 2 + . . . + x N N

4. 几何平均数

= ( x 1 x 2 . . . x N ) 1 N

5. 分位值

用一个例子来分析:
A=【65 23 55 78 98 54 88 90 33 48 91 84】,计算他的25分位.
先排序, 12个数有11个间隔,每个四分位间11/4=2.75个数, 第1个四分位数为上面12个数中的第1+2.75=3.75个数, 指第3个数对应的值48及第3个数与第4个数之间的0.75位置处,即:48+(0.75)*(54-48)=52.5 (52.5为25分位值)。

6. 双峰数据

这里写图片描述

7. 长尾数据

这里写图片描述
在追求利润最大化的经济利益驱动之下,更多企业注重需求曲线的头部,却忽视尾部,结果,实际形成了企业之间对头部的“红海”之争,而对蓝色所代表的更加广阔的“蓝海”市场,却有忽略之嫌。

8. 假设检验

假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法.
具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。

9. 期望迭代法则

E [ E ( X | Y ) ] = E [ X ]

10. 贝叶斯原理

见我的这篇博客.

11. 置信区间

本节内容参考自这篇博客.
为什么要引入区间估计: 总体的期望是客观存在不会变的, 实际上均值等于期望的概率是0. 所以说, 以点估点是不准确的, 有必要引入区间估计.
举个例子, 你测试50m跑的时间, 测了十次, 均值是7s, 但是7s肯定不是你跑50m的时间期望, 因为你再跑10次, 均值可能是6.8s. 因此, 描述你跑50m的时间, 用[6.5, 7.5]似乎是个更好的方式. 注意这个区间不能太大, 太大了别人就不相信了, 比如你说你跑50m的时间在[1, 10]的范围内, 肯定没人信, 因为几乎没有人能在5s内跑完50m.
如何理解95%的置信区间[6.5, 7.5]:
[错误的理解] 你跑了100次50m, 有95次所用的时间在[6.5, 7.5]的范围内.
[正确的理解] 一天跑10次50m并计算均值, 你连续跑了100天, 有95天的均值被包含在[6.5, 7.5]的范围内.
一言以蔽之: 样本的均值有T%的可能性落在区间[M, N]内.

猜你喜欢

转载自blog.csdn.net/pangtouyu_qy/article/details/79966323
da