对于期望风险与经验风险的粗浅理解

对于期望风险与经验风险的粗浅理解

​ 在统计学习中,我们设定输入随机变量X,输出随机变量服从联合概率分布P(X,Y)。所以当已知损失函数 L ( Y | f ( X ) ) 时,我们能想到的第一件事,就是将损失函数基于整个数据集取平均,再想办法减小。

由于 L ( Y | f ( X ) ) 是关于随机变量X,Y的函数,通常有两种方法求均值:

1.将X,Y当作离散随机变量求期望:

R e m p ( f ) = 1 N i = 1 N L ( y ( i ) , f ( x ( i ) )

也就是经验风险,当数据集很小时,虽然最小化经验风险能很好的拟合现有数据,但由于数据太少具有偶然性,无法准确预测新的数据。当数据集足够大时,根据大数定律,离散随机期望无限接近于连续随机变量期望,于是:

2.将X,Y当作连续随机变量求期望:

R e x p ( f ) = E p [ L ( Y , f ( x ) ) ] = x y L ( y , f ( x ) ) P ( x , y ) d x d y

也就是期望风险,此时无论训练集是大是小,我们通过最小化期望风险,都能较好的拟合数据并预测。但是我们无法求出X,Y的联合分布P(X,Y),故不能求出期望风险。

综上,引入了结构风险:

R s r m ( f ) = 1 N i = 1 N l ( y ( i ) , f ( x ( i ) ) ) + λ J ( f )

λ J ( f ) 表示模型复杂度,我们通过减小复杂度来防止经验风险过拟合,结构风险可看作经验风险的改进。故此时,结构风险最小的模型为最优模型。

扫描二维码关注公众号,回复: 2878013 查看本文章

附:二维随机变量求期望公式:

g ( X , Y ) X Y E [ g ( X , Y ) ]

离散:

联合分布为p~ij~,i,j=1,2,3….则

E ( Z ) = E [ g ( X , Y ) ] = j = 1 i = 1 g ( x i , y j ) p i j

联合概率密度f(x,y),则:

E ( Z ) = E [ g ( X , Y ) ] = + + g ( x , y ) f ( x , y ) d x d y

猜你喜欢

转载自blog.csdn.net/qq_39494028/article/details/81611255