人脸识别系列(十五):COCO Loss

版权声明:转载请注明出处 https://blog.csdn.net/Fire_Light_/article/details/79602134

论文链接:Rethinking Feature Discrimination and Polymerization for Large-scale Recognition

这篇文章其实和NormFace原理完全相同,只是推理的切入点稍微有点不同。两篇论文发表的时间也相近。因此博主就不再详细写分析了,如果有看得不太懂的可以参考我的NormFace阅读笔记。
人脸识别系列(十四):NormFace

值得一提的是,这篇文章有一个亮点就是在LFW上刷到了99.86%的成绩,十分惊艳,让人不得不佩服商汤科技的调参能力。

下面进入正题。

提出COCO Loss

1.naive Loss

假设
这里写图片描述
是样本i,j的标签,用C(x,y)表示x,y的余弦距离

为了提高类间差距,减小类内差距,先提出naive Loss

这里写图片描述
文章中说理论上可以用,但是实际上计算复杂度是O(m2)所以用不了,但是我感觉理论上也不行,因为对于不同标签的样本损失直接归零了

2.revised Loss

假设
这里写图片描述

即Ck是某个类的中心,那么可以使用下面的revised Loss
这里写图片描述

exp的作用是将余弦距离转化为规范的概率输出

3.进行特征和类心的归一化:

这里写图片描述

为什么要归一化:见normface一文

此处类心也不像上面写的由统计得出,而是成为一个可训练的参数(这就变得和normface的Softmax层一样了)

损失函数写为
这里写图片描述
还是原来的交叉熵

关于参数α

定理

假设我们要使总损失L不大于一个数ε,网络共有K个类,那么α必有下界

这里写图片描述
(绝了,和normface的公式一模一样)

试验

在MINIST和CIFAR-10上的错误率

这里写图片描述

网络结构:Inception ResNet网络,最后一层接128维的全连接层

训练集:Microsoft-1M 的一个子集,一共越8W人 3M图像

训练过程

a表示MNIST,b表示MS-1M

这里写图片描述

LFW得分

应该是LFW的满分了,比百度的方法高了0.01%

这里写图片描述
顺带提一下
LFW test集合 6000 中只有10个样本标错了。
也就是说理论上最高accuracy是 1-(10/6000)=99.83%
也就是说有些方法已经超过了理论上的极限了

MegaFace

成绩也不错

这里写图片描述

猜你喜欢

转载自blog.csdn.net/Fire_Light_/article/details/79602134