metric-learning 相关论文及优胜比赛方案阅读笔记

0. 前言

本文写于`3/6/2019`，记录了一些对度量学习的文章、比赛方案的记录和笔记。度量学习多用于人脸识别（人员检索，Person Retrieval）、小样本多类别分类等问题。（不是很全，只是个人笔记，待补充）

1. Kaggle 座头鲸尾分类比赛第一名方案笔记

本数据集特点：
1. label数目（类别）众多；
2. 每个label的samples过少（很多label只有一个samples）；
3. 图片没有crop

属于典型的小样本多类别的分类问题。

所用方案：

base net: SeNet154
loss    : (Metric Learning) Triplet Loss / Lovasz Loss
tricks  : 1. 4-fold cross validation with class balance(他们的class balance的策略我没看懂)
          2. flip数据图（比较重要，因为权重图非对称，翻转了图片相当于增加了有效的数据），其中对已标记类别的图片进行了flip、对未标记类别的“new whale”的图片未进行flip
          3. 增加了伪标签（Pseudo Labels），他们加了2000个测试数据
          4. 输入用的4-channel的图片，其中第四维是一个mask
          5. few shot learning（这里作者没有细讲）

训练步骤：

1. Step 1: 【作用：更快收敛】
          train：使用了所有label的图片，每个label的图片使用大于10张样本、小于全部样本的数量进行训练。
2. Step 2: 【】
          train: 包括了所有的labels、所有的样本，同时除最后两层外，fixed了前面所有层进行训练。
3. Step 3: 【】
          finetune

2. Kaggle 人蛋白分类比赛第一名方案笔记

3. `《Learning Local Image Descriptors with Deep Siamese and Triplet Convolutional Networks by Minimizing Global Loss Functions》`论文笔记

作者讲到siamese和triplet网络含有大量参数，需要采样大量样本来训练。然而采样所有的图像对不可能的，并且其中绝大多数都是简单样本！所以可选的方案是采样策略。必须足够小心，因为在困难样本上关注太多又会导致过拟合
为此作者提出了这个全局损失函数。这个函数主要为了避免欠采样（太多简单样本）或者过采样（太多困难样本）问题
全局损失函数目的：

1) minimise the variance of the two distributions 
   and the mean value of the distances between matching pairs,
2) maximise the mean value of the distances between non-matching pairs

metric-learning 相关论文及优胜比赛方案阅读笔记

0. 前言

本文写于3/6/2019，记录了一些对度量学习的文章、比赛方案的记录和笔记。度量学习多用于人脸识别（人员检索，Person Retrieval）、小样本多类别分类等问题。（不是很全，只是个人笔记，待补充）

1. Kaggle 座头鲸尾分类比赛第一名方案笔记

2. Kaggle 人蛋白分类比赛第一名方案笔记

3. 《Learning Local Image Descriptors with Deep Siamese and Triplet Convolutional Networks by Minimizing Global Loss Functions》论文笔记

猜你喜欢

本文写于`3/6/2019`，记录了一些对度量学习的文章、比赛方案的记录和笔记。度量学习多用于人脸识别（人员检索，Person Retrieval）、小样本多类别分类等问题。（不是很全，只是个人笔记，待补充）

3. `《Learning Local Image Descriptors with Deep Siamese and Triplet Convolutional Networks by Minimizing Global Loss Functions》`论文笔记