估计、偏差和方差(Estimators, Bias and Variance)
点估计(Point Estimation)
点估计(point estimation)是指通过估计仅得到“最优”的一个估计值或者是一个估计向量,若待估计的参数为,估计量记作。令表示m个独立同分布的数据点,点估计为这些点的函数:。定义上不要求函数g的输出是接近的值,甚至可以是可允许的任意值(点估计的定义十分宽松,使得估计器的设计是很容易的),但输出接近的函数g才是一个好的估计器。真正的是一个固定值,但其估计量是一个函数(数据集的函数)。由于数据集是随机的(每次采样得到的数据集并不一定相同),因此其函数(估计量)是一个随机变量。点估计也可以视作是输入数据集和目标变量之间关系的函数,也可以称作函数估计(function estimators)。
function estimation
在给定输入向量x时估计变量y:假设f(x)能近似表示y和x之间的关系,比如,表示不能从x中预测到的y的那部分(y由两部分组成:能从x中预测出的一部分f(x),不能从x中预测出的一部分)。function estimation中我们想估计出一个近似的函数,其实就可以视为函数空间(function space)中的一个点。因此线性回归和多项式回归中参数w的估计既可以视为点估计,也可以视为是输入数据集和目标变量y之间关系的函数估计。
偏差(Bias)
估计的偏差(bias)定义如下:,其中是所估计参数的期望(是由数据集进行估计的,数据集视作采样点,因此具有随机性,那么也是随机变量,因此要求期望才能代表该估计方法的准确性),是真正的参与到数据生成的参数值。如果,称为无偏估计,因为;若,称为渐进无偏(asymptotically unbiased)估计,因为。
1. 以Bernoulli分布为例:设是服从均值为的Bernoulli分布的独立同分布的样本,则概率密度函数为:
一个常见的的估计量为这些样本点的期望:
经检验:
是无偏估计。
2. 以估计高斯分布的均值为例:设是服从高斯分布的独立同分布样本,概率密度函数为:
,其中。
常见的期望估计是样本点的均值:
是无偏估计。
3. 以估计高斯分布的方差为例:设是服从高斯分布的独立同分布样本,概率密度函数为:
,其中。用两种方法估计方差,观察是否为无偏估计。
第一种为样本方差(sample variance)估计:,其中也是估计量,计算:
不是无偏估计,至于的计算可以参考该回答:为什么样本方差(sample variance)的分母是 n-1? - 知乎用户的回答 - 知乎 https://www.zhihu.com/question/20099757/answer/26586088。
第二种是无偏差的样本方差估计(unbiased sample variance):,其中为均值的估计量,则:
,是无偏估计。
方差和标准差(Variance and Standard Error)
除了偏差bias(用来衡量我们的估计量的期望与真实值之间的差距),也需要衡量估计量的波动大小,也就是估计量的方差(variance):,变量就是数据集/训练集/采样点(方差就表示多次采样时,估计量是如何变化的,是否稳定),方差的平方根就是标准差(standard error):。均值估计量的标准差为:,其中是真实方差(就是真实标准差),估计量的标准差通常由数据的标准差的估计量得到,然而无论是上面提到的biased sample variance estimate还是unbiased sample variance estimate都只能得到有偏的标准差的估计量,两者都倾向于低估了标准差。但实际应用中依然选用unbiased sample variance estimate来估计标准差(低估程度小,更接近真实标准差),当样本数很大时,估计是理想的。
均值估计量的标准差经常在机器学习中使用:计算测试集上的均值,估计泛化误差。从上面的式子中可知,测试集的大小会影响估计的准确性。根据中心极限定理(central limit theorem),均值近似服从正态分布,因此可利用均值估计量的期望和标准差得到概率密度函数,然后计算真实的期望落在某个区间内的概率(积分),其中均值以为中心的95%置信区间为:,表示真正的期望在该区间内的可能性为95%。一般在机器学习中,如果算法A的95%区间的上边界低于算法B的置信区间的下边界,则称算法A优于算法B,这个区间表示期望估计量在95%置信度下的取值范围,说明算法A绝大多数情况下对均值的估计都要比B贴近真实值。
以Bernoulli Distribution为例:设是服从高斯分布的独立同分布样本,概率密度函数为:
,计算估计量的方差为:
这是一个m的减函数,因此随着样本数量的增加,均值估计量的偏差是会变小的。
最小化均方差时的偏差和方差(Trading off Bias and Variance to Minimize Mean Square Error)
偏差和方差可表示估计器的两种误差来源:偏差表示估计器偏离真实参数或函数的平均水平,方差表示估计器对每个点进行估计时的偏离程度。那么如何在偏差和方差间取舍?通常使用交叉验证(cross-validation),另一种方法是利用均方差(Mean square error):,MSE可以衡量估计量的整体偏离程度(在误差平方的意义上)。拥有较小MSE的估计器基本有恰当的偏差和方差。
偏差和方差间的联系与机器学习中模型的容量,欠拟合和过拟合等概念有很密切的关系。当机器学习中的泛化误差由MSE衡量时,增加模型容量就会增大方差减小偏差,因此泛化误差是模型容量的U形函数:
一致性(Consistency)
训练样本越多,我们的估计会越准确,即:,其中表示以一定的概率收敛,即,当时。该式称为一致性(Consistency),有时称为弱一致(weak consistency),强一致(strong consistency)指几乎确定。一个随机变量序列的几乎确定收敛到一个值是指。
一致性保证了估计器的偏差会随着训练集样本的增加而消失(达到无偏估计),但反过来,无偏估计不能证明一致性。比如:
设是服从正太分布()的独立同分布样本,可以通过第一个样本对期望进行估计:,因为所以是无偏估计,但没有当时。