STPP[时间金字塔池化]||SSN(Temporal Action Detection with Structured Segment Networks)时间动作定位

        看完SSN网络其中一个重点就是文章所提出的STPP结构。文章或者有些解读对于我们这种初学者来说可能有一点点理解难度,特别是对于L和Bl这些参数,我看到有些网上的解释写的有些歧义。但实际上只要结合SPP的结构,理解STPP结构也并不困难。

        首先回顾SPP,通过对feature map进行不同空间尺度的下采样,并且对不同大小的特征输入可以得到固定大小输出。

         对于STPP则是同样去理解,在Temporal上进行不同维度的下采样。一个stage中包含了很多snippets。通过下图的方式对这些snippets进行不同尺度的划分、采样。

        L代表多尺度等级,Bl代表每个level的具体下采样尺度,而公式所计算的u则代表上图中的白块(分别为2,3,4),u的值实际上是对自身时间范围内所包含的snippets的特征的平均。

        而STPP最后得到的输出同样和SPP类似,是将这些u值concat到一起。(在上图的例子中则是将2+3+4个u值concat)

        目前还没看代码,是从文章的角度去理解,如有错误,欢迎指正讨论。

猜你喜欢

转载自blog.csdn.net/Or1ana/article/details/127568169