some questions

首先有四个问题

1. bag-of-word and bag-of-feature

  指图像的feature组成一个字典,形成一个频率直方图;

2.visual representation and graph representation.why use graph representation need 'a full scene graph'?

  前者就是经过feature exactor得到的;

3.privileged framework learning

4.instance-level image retrieval

  基于每一个实例的分割。

之前的图像检索方法有:

1 直接计算与query image的距离;2 检索语义相关的图像,但需要提前知道所有的类别。

本文是通过在目标类别未知的情况下检索语义相关的images。贡献有:

1证明语义检索是well defined,尤其是复杂的环境;

2人工标注的文字作为训练样本,作为语义相似性的替代;

3 使用人工注记的相似性的模型;

a joint embedding for the visual and textual representations。

猜你喜欢

转载自www.cnblogs.com/liurenyu/p/12387303.html