softmax整理

softmax来由

阅读Softmax vs. Softmax-Loss: Numerical Stability的总结
softmax函数的定义：

\begin{aligned} σ_{i} (z) = \frac{e^{z_{i}}}{\sum_{j = 1}^{m} e^{z_{j}}}, i = 1, 2, . . ., m \\ z_{i} = w_{i}^{T} x + b_{i} \end{aligned}

$\begin{aligned} &\sigma_i(z)=\frac{e^{z_i}}{\sum^m_{j=1}e^{z_j}},\quad i=1,2,...,m\\ &z_i=w^T_ix+b_i \end{aligned}$
式中z是第i个类别的线性预测结果，softmax对z进行指数运算使其变为非负，然后除以所有项之和进行归一化。

σ_{i} (z)

$\sigma_i(z)$ 也就是数据x属于类别i的概率，学术中称为最大似然（likelihood）。
如果已知x对应的类别是y，则

σ_{y} (z)

$\sigma_y(z)$ 应该表现出大概率结果，即最大化。这里需要注意的是，

σ_{y} (z)

$\sigma_y(z)$ 是一个归一化的正数，值域为[0,1]，其最大化情况下损失函数应最小化（接近0）。损失函数通常是使用 negative log-likelihood 而不是 likelihood，也就是说最小化

- l o g (σ_{y} (z))

$-log(\sigma_y(z))$ 的值，因此第y类的softmax-loss的定义为：

L_{y, z} = - l o g (\frac{e^{z_{y}}}{\sum_{j = 1}^{m} e^{z_{j}}}) = l o g (\sum_{j = 1}^{m} e^{z_{j}}) - z_{y}

$L_{y,z}=-log(\frac{e^{z_y}}{\sum^m_{j=1}e^{z_j}})=log(\sum^m_{j=1}e^{z_j})-z_y$
因此在反向传播计算梯度时：

\begin{aligned} \frac{\partial L_{y, z}}{\partial z_{k}} = \frac{e^{z_{k}}}{\sum_{j = 1}^{m} e^{z_{j}}} - δ_{k y} = σ_{k} (z) - δ_{k y} \\ δ_{k y} = {\begin{cases} 1, & k = y \\ 0, & k \neq y \end{cases} \end{aligned}

$\begin{aligned} &\frac{\partial L_{y,z}}{\partial z_k}=\frac{e^{z_k}}{\sum^m_{j=1}e^{z_j}}-\delta_{ky}=\sigma_k(z)-\delta_{ky}\\ &\delta_{ky}=\begin{cases} 1, &k=y \\ 0, &k\neq y \end{cases} \end{aligned}$
softmax的问题是当线性概率z的值过大过小时，通过指数运算可能导致underflow和overflow，也就是输出值为NAN。解决办法是：对于overflow，使每一个线性概率减去最大值，使线性概率的最大值为0，再进行指数运算；对于underflow，由于最后结果为0，与实际情况非常近似，因此不再考虑。

softmax的演变

1、原始softmax

由上所示，针对多类别的softmax损失函数：

L_{S} = - \frac{1}{n} \sum_{i = 1}^{n} \log (\frac{e^{W_{y_{i}}^{T} x_{i} + b_{y_{i}}}}{\sum_{j = 1}^{n} e^{W_{j}^{T} x_{i} + b_{j}}})

$L_S=-\frac{1}{n}\sum^n_{i=1}{\log(\frac{e^{W^T_{y_i}x_i+b_{y_i}}}{\sum^n_{j=1}{e^{W^T_jx_i+b_j}}})}$

x_{i}

$x_i$ 表示第i维深度特征，属于第

y_{i}

$y_i$ 类，W表示最后一个全连接层中第j列的权重值，b是偏置项。

2、权重归一化（Large Margin Softmax）

研究人员发现训练样本中各类别的样本数量以及测试样本的不同分布，最后所得模型提取得特征存在类内方差大、类间差异不明显的问题，严重影响到了模型的性能。
softmax的问题
通过取消b，并对权重归一化，可得：

\begin{aligned} W_{j}^{T} x_{i} = ‖ W_{j} ‖ ‖ x_{i} ‖ c o s θ_{j} \\ L_{L S} = - \frac{1}{n} \sum_{i = 1}^{n} \log \frac{e^{| | x_{i} | | c o s (θ_{y_{i}})}}{e^{| | x_{i} | | c o s (θ_{y_{i}})} + \sum_{j = 1, j \neq y_{i}}^{c} e^{| | x_{i} | | c o s (θ_{j})}} \end{aligned}

$\begin{aligned} &W^T_jx_i=\lVert W_j\lVert\lVert x_i\lVert cos\theta_j\\ &L_{LS}=-\frac{1}{n}\sum^n_{i=1}{\log\frac{e^{||x_i||cos(\theta_{y_i})}}{e^{||x_i||cos(\theta_{y_i})}+\sum^c_{j=1,j\neq y_i}{e^{||x_i||cos(\theta_j)}}}} \end{aligned}$
权重归一化针对样本数据不足时，通过先念知识提升性能。但样本不均衡的问题仍然存在，norm后仍然和二范数、样本数、样本总质量正相关。样本数稀少的类别会导致每次训练反传时产生几乎一样的作用，而所有类别的分布初始化是独立同分布的，经过大致相同的训练过程可能出现混叠的情况。可参考知乎博文。

3、SphereFace（Multiplicative Angular Margin）

SphereFace中对角度添加裕量m，并将余弦函数改为分段函数：

ψ (θ_{y_{i}}) = \frac{(- 1)^{k} c o s (m θ_{y_{i}})) - 2 k + λ c o s θ_{y_{i}})}{1 + λ}, θ \in [\frac{k π}{m}, \frac{(k + 1) π}{m}]

$\psi(\theta_{y_i})=\frac{(-1)^kcos(m\theta_{y_i}))-2k+\lambda cos\theta_{y_i})}{1+\lambda},\theta\in[\frac{k\pi}{m},\quad \frac{(k+1)\pi}{m}]$

L_{A S} = - \frac{1}{n} \sum_{i = 1}^{n} \log \frac{e^{| | x_{i} | | ψ (θ_{y_{i}})}}{e^{| | x_{i} | | ψ (θ_{y_{i}})} + \sum_{j = 1, j \neq y_{i}}^{c} e^{| | x_{i} | | c o s (θ_{j})}}

$L_{AS}=-\frac{1}{n}\sum^n_{i=1}{\log\frac{e^{||x_i||\psi(\theta_{y_i})}}{e^{||x_i||\psi(\theta_{y_i})}+\sum^c_{j=1,j\neq y_i}{e^{||x_i||cos(\theta_j)}}}}$
超参数

λ

$\lambda$ 从1000逐渐降到5来收窄每一类的角度空间，但也加大了模型训练的难度。

4、特征归一化（AM-Softmax）

有研究人员继续对特征进行归一化处理，进一步化简公式。
角裕度
高质量人脸的L2范数较大，低质量的人脸L2范数较小，通过特征归一化能提高当前深度学习框架对人脸验证的性能。特征归一化和权重归一化的目的是消除径向变化，使每一个特征都分别在超球面上。余弦裕度损失函数如下：

ψ (θ) = c o s θ - m

$\psi(\theta)=cos\theta-m$

L_{A M S} = - \frac{1}{n} \sum_{i = 1}^{n} \log \frac{e^{s \cdot (c o s (θ_{y_{i}}) - m)}}{e^{s \cdot (c o s (θ_{y_{i}}) - m)} + \sum_{j = 1, j \neq y_{i}}^{c} e^{s \cdot c o s θ_{j}}}

$L_{AMS}=-\frac{1}{n}\sum^n_{i=1}\log\frac{e^{s\cdot (cos(\theta _{y_i})-m)}}{e^{s\cdot (cos(\theta _{y_i})-m)}+\sum^c_{j=1,j\neq y_i}e^{s\cdot cos\theta _j}}$
其特点为：易实现、易收敛、性能好。该方法在质量较差的数据集上能取得好的效果，但在质量好的数据集上效果不如不进行特征归一化的模型。

5、ArcFace

角度上的裕度相当于超球面的弧度，相较余弦裕度有更清晰的几何解释。

L_{A r c F a c e} = - \frac{1}{n} \sum_{i = 1}^{n} \log \frac{e^{s \cdot (c o s (θ_{y_{i}} + m))}}{e^{s \cdot (c o s (θ_{y_{i}} + m))} + \sum_{j = 1, j \neq y_{i}}^{c} e^{s \cdot c o s θ_{j}}}

$L_{ArcFace}=-\frac{1}{n}\sum^n_{i=1}\log\frac{e^{s\cdot (cos(\theta _{y_i}+m))}}{e^{s\cdot (cos(\theta _{y_i}+m))}+\sum^c_{j=1,j\neq y_i}e^{s\cdot cos\theta _j}}$

c o s (θ + m) = c o s θ c o s m - s i n θ s i n m

$cos(\theta+m)=cos\theta cosm-sin\theta sinm$
作者认为相较于余弦裕度，本公式的magin值能通过

s i n θ

$sin\theta$ 实现动态调整。
几何解释

PS：个人感觉那个

c o s (θ_{1} + m)

$cos(\theta_1+m)$ 的点应该是绿色角顶点映射到权重向量的位置，也就是说少了一条虚线。

6、CCL & AAM

有的研究人员认为对特征直接进行L2归一化并不能改变特征所在的象限，而且其中还涉及一些超参数调节问题。对于SphereFace，作者定义了对特征x的处理函数，因此：

L_{s f} = - \sum_{i = 1}^{n} \log \frac{e^{| | Φ (x_{i}) | | c o s (m θ_{y_{i}})}}{\sum_{j = 1}^{c} e^{| | Φ (x_{i}) | | c o s (θ_{j})}}

$L_{sf}=-\sum^n_{i=1}{\log\frac{e^{||\Phi (x_i)||cos(m\theta_{y_i})}}{\sum^c_{j=1}{e^{||\Phi (x_i)||cos(\theta_j)}}}}$

Φ (x_{i}) = \frac{x_{i} - ο_{i}}{σ_{i}}

$\Phi (x_i) = \frac{x_i-\omicron_i}{\sigma_i}$

ο, σ_{i}

$\omicron,\sigma_i$ 分别是

x, x_{i}

$x,x_i$ 的均值向量、标准偏差，通过相似度比较函数对原点矩阵非常敏感，因此需要设置一个很大的衰减因子来更新原点矩阵和方差：

{\begin{cases} ο_{n e w} & = ρ \cdot ο_{o l d} + (1 - ρ) \cdot ο_{b} \\ σ_{n e w} & = ρ \cdot σ_{o l d} + (1 - ρ) \cdot σ_{b} \end{cases}

$\begin{cases} \omicron_{new} &=\rho\cdot\omicron_{old}+(1-\rho)\cdot\omicron_b\\ \sigma_{new} &=\rho\cdot\sigma_{old}+(1-\rho)\cdot\sigma_b \end{cases}$
由于相似度比较对

ο

$\omicron$ 非常敏感，因此设置

ρ

$\rho$ 为0.995来保证每次迭代时不会变化很大。
为了降低超参数的调节难度，作者提出自适应参数

η

$\eta$ ，并得到：

L_{A A M} = \sum_{i}^{N} - l o g (p_{y_{i}}^{A A M})

$L_{AAM}=\sum^N_i{-log(p^{AAM}_{y_i})}$

p_{y_{i}}^{A A M} = \frac{e^{| | Φ (x_{i}) | | c o s (η θ_{y_{i}})}}{e^{| | Φ (x_{i}) | | c o s (η θ_{y_{i}})} + \sum_{k \neq y_{i}} e^{| | Φ (x_{i}) | | c o s (η θ_{k})}}

$p^{AAM}_{y_i}=\frac{e^{||\Phi(x_i)||cos(\eta\theta_{y_i})}}{e^{||\Phi(x_i)||cos(\eta\theta_{y_i})}+\sum_{k\neq y_i}{e^{||\Phi(x_i)||cos(\eta\theta_k)}}}$

η = {\begin{cases} 1, & π / 3 < θ_{y_{i}} <= π; \\ \frac{π / 3}{θ_{y_{i}}}, & π / 30 < θ_{y_{i}} <= π / 3; \\ 10, & θ <= π / 30. \end{cases}

$\eta=\begin{cases} 1, &\pi/3<\theta_{y_i}<=\pi;\\ \frac{\pi/3}{\theta_{y_i}}, &\pi/30<\theta_{y_i}<=\pi/3;\\ 10,&\theta<=\pi/30. \end{cases}$
作者认为大角度差异导致的梯度足够反向传播，设置系数为1；小角度差异下为了保证相同的反向传播力度，设置系数为10；在中间情况下，更小的角度差异需要更大的margin系数来保证分类性能。
作者提示单独使用AAM-softmax不稳定，因此和SphereFace的损失函数相结合，其平衡系数

λ = 3

$\lambda=3$ ：

L = \frac{λ L_{s f} + L_{A A M}}{λ + 1.0}

$L=\frac{\lambda L_{sf}+L_{AAM}}{\lambda +1.0}$

softmax的问题

ArcFace中曾提到：

Due to the limitation of GPU memory, it is hard to train Softmax-based methods,e.g. phereFace, CosineFace and ArcFace, with millions of identities.

不太清楚具体指什么原因。
第二个问题是知乎博文中提到的当前样本均衡难以解决的问题，导致以计算类中心的方法难以提升到更好的效果。