ICCV'21 | 论文速记 (Day 2)

主要记录关于视觉理解以及受限标签相关的论文,欢迎访问 Github 项目。

0. Spatial-Temporal Transformer for Dynamic Scene Graph Generation

对于视频序列中的每帧图像,作者使用 Transformer Encoder 提取空间上的上下文信息,并利用 Sliding Window 机制将相邻几帧特征输入到 Transformer Decoder 从而捕捉时序上的依赖关系。 在这里插入图片描述

1. Learning from Noisy Data with Robust Representation Learning

作者提出了 Prototypical Contrastive Loss,以此鼓励不同比例混合的输入的特征仍与类原型具有相似的关系。此外,作者还利用与输入最相似的 Top-k 个样本生成 Soft Pesudo-label,以此清除标签中所存在的噪音。 在这里插入图片描述

2. Instance Similarity Learning for Unsupervised Feature Representation

通过 GAN 来学习既与 Positive Sample 语义相似,又与 Negative Sample 语义相似的 Proxy,从而渐进地发掘潜在的 Positive Sample Set。 在这里插入图片描述

3. Segmentation-grounded Scene Graph Generation

将 Zero-shot Segmentation 嵌入到 Scene Graph Generation 中,以此获得更细致的特征表示。 在这里插入图片描述

4. Partner-Assisted Learning for Few-Shot Image Classification

作者在 Few-shot Image Recognition 任务中引进 Contrastive Loss 训练 Partner Encoder,再将其 Fix 住用来对模型进行 Logit/Feature-level Alignment。 在这里插入图片描述

5. Visual Distant Supervision for Scene Graph Generation

相较于常见的 Scene Graph Generation 的监督信息,作者提出了 Visual Distant Supervision。 在这里插入图片描述

6. With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations

与之前常见的 Contrastive Learning 不同的是,作者不再将同一样本在不同数据增强下的图像作为 Positive Pair, 而是选取该样本的最邻近样本进行替换。 在这里插入图片描述

猜你喜欢

转载自juejin.im/post/7031083794191319076