我们都知道softmax公式如下:
但有些softmax公式是先将每个x_i减去x中的最大值再代入以上公式
原因是为了防止上溢和下溢
举个例子,x=[100000,100001,100002],如果直接代入上式数值会非常大,当对每个x的值减去x中的最大值后得到[-2,-1,0],此时再代入上式
我们都知道softmax公式如下:
但有些softmax公式是先将每个x_i减去x中的最大值再代入以上公式
原因是为了防止上溢和下溢
举个例子,x=[100000,100001,100002],如果直接代入上式数值会非常大,当对每个x的值减去x中的最大值后得到[-2,-1,0],此时再代入上式