1.文章提出的背景
细粒化目标识别受到重视,但是其收集训练样本困难。
2.提出问题
当遇到细粒化目标识别中一些难以用语义描述的视觉概念(文中指的是两个人之间互动的概念以及一个人的姿势概念),怎么办?
3.提出方法
ZSL+视觉抽象去识别一个人的姿势(实例化)以及两个人的互动(类)。
第一步:数据的收集
本文提供一个界面进行收集数据。对于一个人的姿势通过提供一句话让实验者去想象,然后通过界面展示出来;对于两个人的互动则通过提供一张图片让实验者去回忆,然后通过界面展示出来。
第二步:确定特征
文中确定了Basic、Gaze、Global、Contant、Orientation(一个人的姿势没有)、Expression、Gender7个特征。
第三步:模型
对于两个人的互动,文章用多个一对多的线性SVMs进行训练;
对于一个人的姿势,文章用K近邻匹配进行训练,要进行抽象到现实的映射用GRNN。
第四步:测试
数据集:两人的用INTERACT,一人的用PARSE。
提供现实图片,通过现实到抽象的映射,文中用GRNN进行映射,然后进行测试。
4.实验
(1)对于两个人互动用什么模型好?
文中通过与DAP、姿势识别器和带边框的姿势识别器进行比较,发现所提出的好。(为什么要跟姿势识别器比较,是因为姿势识别器也能细粒化一些交互动作但是需要一些真实的训练图示)
(2)对于一个人的姿势用什么模型好?
文中通过与姿势识别器和带边框的姿势识别器进行比较,发现所提出的好。
(3)特征消融
通过实验显示,Gaze这个特征可以忽略,Expression最好,Global信息最丰富。
5.结论
所提出的模型能解决上述问题。
ZSL+VisualAbstraction(Zero-Shot Learning via Visual Abstraction)
猜你喜欢
转载自blog.csdn.net/zeshen123/article/details/109227745
今日推荐
周排行