1.总体(Population)与样本(Sample)
- 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力。因此通过对总体进行抽样得到可以代表总体的样本。
- 一般都是采用样本估计总体的方式,毕竟总体数量太大,将总体可划分为训练集,验证集和测试集。
2.均值(mean)
令总体数为N,样本数为n,每一个样本的取值用表示
xi,则:
- 总体均值:
μ=N1∑i=1Nxi
- 样本均值:
x=n1∑i=1nxi
3.方差(Variance)与标准差(Standard deviation)
方差和标准差描述的是数据的离散程度,也就是远离中心的程度:
- 总体方差:
σ2=N1∑i=1N(xi−μ)2
- 样本方差:
sn2=n1∑i=1n(xi−x)2
这个公式计算的方差通常会低估总体的方差:当样本分布与总体分布相近时,计算得到的样本均值接近总体均值,这时得到的样本方差也就接近总体方差;但是可能的情况是,采样得到的样本与总体偏差较大时(有偏的),由于样本均值总是分布在样本点的中心,这时样本点与样本均值之间的距离小于与总体均值的距离,计算得到的样本方差小于总体方差。这是一种更普遍的情况,因此用上式计算得到的方差通常会低估总体方差。
- 无偏的样本方差:
s2=n−11∑i=1n(xi−x)2
将分母改为n-1,相当于以一个大于1的系数修正了有偏的方差。实验证明,这个公式能更好地估计总体方差。上述情况是在我们不知道总体的均值时,否则就不需要用n-1来保持无偏了。
- 总体标准差:
σ=N1∑i=1N(xi−μ)2
- 样本标准差:
s=n−11∑i=1n(xi−x)2
4.随机变量、概率密度函数、期望
-
随机变量实际上是一种函数,只有在随机过程中才给它赋值。
-
概率密度函数下方的面积表示的才是概率,是概率密度函数在某一个区间内的积分。任何一个确切的点的概率值为0
-
期望值(Expected value):对于随机变量来说,总体数是无穷的,计算总体均值时我们无法将所有的值相加再除以无穷。因此,将每个数值的出现的频率乘以数值然后对所有数值求和,就得到了期望。期望值实际上等同于总体均值。
5.二项分布
二项分布就是重复n次独立的伯努利实验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立实验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。
用p表示一次实验中成功的概率,1-p表示一次实验中失败的概率,则二项分布n次独立重复性实验中,成功的次数k的概率为:
-
P(x=k)=k!(n−k)!n!pk(1−p)n−k
6.二项分布的期望
E(X)E(x)=np=k=0∑nk⋅(nk)⋅pk(1−p)n−k=k=0∑nk⋅k!(n−k)!n!⋅pk(1−p)n−k=k=1∑nk⋅k(k−1)!(n−k)!n(n−1)!⋅p⋅pk−1(1−p)n−k=npa=0∑n−1a(k−1)!(n−k)!b!⋅p⋅pk−1(1−p)n−k=npn−1a!(b−a)!b!⋅p⋅pk−1(1−p)n−k=np⋅1=np
二项分布的方差:
E(X)=np(1−p)
扫描二维码关注公众号,回复:
9265537 查看本文章