首先有四个问题
1. bag-of-word and bag-of-feature
指图像的feature组成一个字典,形成一个频率直方图;
2.visual representation and graph representation.why use graph representation need 'a full scene graph'?
前者就是经过feature exactor得到的;
3.privileged framework learning
4.instance-level image retrieval
基于每一个实例的分割。
之前的图像检索方法有:
1 直接计算与query image的距离;2 检索语义相关的图像,但需要提前知道所有的类别。
本文是通过在目标类别未知的情况下检索语义相关的images。贡献有:
1证明语义检索是well defined,尤其是复杂的环境;
2人工标注的文字作为训练样本,作为语义相似性的替代;
3 使用人工注记的相似性的模型;
4 a joint embedding for the visual and textual representations。