STPP[时间金字塔池化]||SSN(Temporal Action Detection with Structured Segment Networks)时间动作定位

看完SSN网络其中一个重点就是文章所提出的STPP结构。文章或者有些解读对于我们这种初学者来说可能有一点点理解难度，特别是对于L和Bl这些参数，我看到有些网上的解释写的有些歧义。但实际上只要结合SPP的结构，理解STPP结构也并不困难。

首先回顾SPP，通过对feature map进行不同空间尺度的下采样，并且对不同大小的特征输入可以得到固定大小输出。

对于STPP则是同样去理解，在Temporal上进行不同维度的下采样。一个stage中包含了很多snippets。通过下图的方式对这些snippets进行不同尺度的划分、采样。

L代表多尺度等级，Bl代表每个level的具体下采样尺度，而公式所计算的u则代表上图中的白块（分别为2,3,4），u的值实际上是对自身时间范围内所包含的snippets的特征的平均。

而STPP最后得到的输出同样和SPP类似，是将这些u值concat到一起。（在上图的例子中则是将2+3+4个u值concat）

目前还没看代码，是从文章的角度去理解，如有错误，欢迎指正讨论。