对于期望风险与经验风险的粗浅理解
在统计学习中,我们设定输入随机变量X,输出随机变量服从联合概率分布P(X,Y)。所以当已知损失函数
L(Y|f(X))
时,我们能想到的第一件事,就是将损失函数基于整个数据集取平均,再想办法减小。
由于
L(Y|f(X))
是关于随机变量X,Y的函数,通常有两种方法求均值:
1.将X,Y当作离散随机变量求期望:
Remp(f)=1N∑Ni=1L(y(i),f(x(i))
也就是经验风险,当数据集很小时,虽然最小化经验风险能很好的拟合现有数据,但由于数据太少具有偶然性,无法准确预测新的数据。当数据集足够大时,根据大数定律,离散随机期望无限接近于连续随机变量期望,于是:
2.将X,Y当作连续随机变量求期望:
Rexp(f)=Ep[L(Y,f(x))]=∫xyL(y,f(x))P(x,y)dxdy
也就是期望风险,此时无论训练集是大是小,我们通过最小化期望风险,都能较好的拟合数据并预测。但是我们无法求出X,Y的联合分布P(X,Y),故不能求出期望风险。
综上,引入了结构风险:
Rsrm(f)=1N∑Ni=1l(y(i),f(x(i)))+λJ(f)
λJ(f)
表示模型复杂度,我们通过减小复杂度来防止经验风险过拟合,结构风险可看作经验风险的改进。故此时,结构风险最小的模型为最优模型。
扫描二维码关注公众号,回复:
2878013 查看本文章
附:二维随机变量求期望公式:
设
g(X,Y)是随机变量XY的函数,且E[g(X,Y)]存在
离散:
联合分布为p~ij~,i,j=1,2,3….则
E(Z)=E[g(X,Y)]=∑∞j=1∑∞i=1g(xi,yj)pij
联合概率密度f(x,y),则:
E(Z)=E[g(X,Y)]=∫+∞−∞∫+∞−∞g(x,y)f(x,y)dxdy