文献阅读笔记 - Social Ways

文献引用

Amirian J, Hayet J B, Pettre J. Social Ways: Learning Multi-Modal Distributions of Pedestrian Trajectories with GANs[J]. 2019.

文章是继Social LSTM、Social GAN模型后的进一步提升，在理想的监控俯瞰数据库ETH、UCY上进行数据的预测。重点贡献有：

引入了注意力机制使模型自主分配对交互信息的关注。
增强模型对多合理轨迹的预测能力。
提供了一种能够验证各模型的多轨迹预测能力的小型合成场景和轨迹生成效果的判断指标。

模型框架

如上图所示，文章的基本框架是GAN网络，在不考虑batch批处理的情况下，模型逐一为每个行人预测轨迹。

在Generator中，对于待预测行人\(i\)，首先会将所有行人的已知轨迹进行编码，而后基于\(i\)和其他行人之间的地理和运动信息，引入注意力机制使得模型对其他行人的交互信息自主适应。行人\(i\)的轨迹编码、注意力池化后的交互信息、噪音、latent code（新引入内容，之后会讲到）四种输入作为Decoder的输入，解码出行人\(i\)的预测轨迹。
在Discriminator中，会对生成轨迹/真实轨迹进行判别，判别的结果作为Generator/Discriminator的代价函数。
模型框架具体来说是InfoGAN，InfoGAN网络解决的是在无监督的情况下通过修改latent code倾向从而控制GAN的生成分布，与GAN相比其强调latent code对生成的控制性，与cGAN相比其强调能够在有潜在类别的数据中无监督（无数据标签）学习。因而GAN网络中新引入了Latent Code和Information Loss两个结构。

HighLight 1 - 注意力机制

注意力机制采用Key-Value-Query型定义，从认知角度引入合适的手工指标，基于这些指标使模型能够对周围轨迹产生不同的注意力。

Key = Value = \(H_t\)（除目标行人\(i\)外，其他的行人的轨迹编码信息）。
Query：\(f^{ij}\)由三种运动地理运动信息合成
- \(i\)和\(j\)之间的欧式距离
- \(i\)和\(j\)之间运动方向的夹角。
- 以当前运动姿态，\(i\)和\(j\)未来将会出现的最短距离。

\[\sigma (f^{ik},f^k)={{N-1}\over \sqrt d_{\sigma}}<f^{ik},W_\sigma h^k>\]

\[\alpha^{i,j}={exp(\sigma(f^{ij},h^j)) \over \sum_{k \neq i} exp(\sigma(f^{ik},h^k))}\]

HighLight 2 - InfoGAN

InfoGAN模型解读：https://www.jiqizhixin.com/articles/2018-10-29-21

模型结构

InfoGAN的模型结构相较于GAN的改进是较小的，在上文的模型中，首先是在输入中新增了Latent Code，而后弃用了SGAN中的L2损失函数，在Discriminator在加入了一个子网络\(Q\)产生Information Loss。

原理简介

Motivation： InfoGAN训练后的理想状态是通过调整Latent Code（潜码）——\(c\)输入控制生成的分布。然而GAN自由灵活性很高，网络很容易直接忽视Latent Code的存在，因此必须调整代价函数使网络重视Latent Code的存在。InfoGAN希望使用互信息\(I\)作为优化目标，\(I\)越大则潜码和生成的关系越大：

\[I(X;Y) = H(X) - H(X|Y)\]

\[I(c;G(z,c))\]
Restriction： 求出\(I(c;G(z,c))\)需要潜码基于生成数据\(x \sim G(z,c)\)的后验概率，要获取其非常困难，因此使用\(Q(c|x)\)（辅助分布）来近似求解后验的概率\(P(c|x)\)。至此，数据学习细化到了两个方面的问题：\(Q(c|x)\)的拟合能力和Generator对c的敏感性。
Target：要极大化互信息\(I(c;G(z,c))\)就是要极大化\(-H(X|Y)\)，但是由于不可求，因此用\(-E_{c \sim P(c),x \sim G(z,c)}[logQ(c|x)]\)表示\(-H(X|Y)\)的下界，最大化互信息转化为最大化互信息下界：

\[E_{c \sim P(c),x \sim G(z,c)}[logQ(c|x)] + H(c) \leq I(c;G(z,c))\]

之后，又经过证明变换，将上述式子变换为：

\[L_1(G,Q)=E_{x \sim G(z,c)}[E_{c' \sim P(c|x)}log(Q(c'|x))] + H(c)\]

在这里，笔者不太能理解为什么要继续进行变换，其目的是什么？

最终加入了GAN的损失函数后，总优化目标变化为：

\[min_Gmax_DV_1(D,G)=V(D,G) - \mu L_1(G,Q)\]
Implement：Social Ways模型在实现时，损失函数看着就没有理论函数那么高大上了。Q实际上是一个latent code reconstructor（潜码恢复器），由一个全连接的神经网络实现，并随着Discriminator进行训练。Information Loss实指Q所恢复的潜码\(\hat c\)和真实潜码\(c\)之间的MSE。

HighLight 3 - 多轨迹预测的生成场景

GAN模型引入轨迹预测的重要目的就是有助于生成多条轨迹（分布），文章为探究不同类GAN模型对多轨迹的预测能力，特地人工生成了一个测试场景（如下图）：

蓝色为已知轨迹，红色为待预测轨迹。
从六个方向上产生轨迹，并在每个方向轨迹上又产生三个具体的分支。

不同的baseline模型在不同的迭代周期产生的预测结果如下图所示，从而验证了InfoGAN对多合理轨迹预测的有效性，其能够在更短的迭代周期中识别出多种可能性的轨迹：

此外，文章还使用了1-Nearest Neighbor classifier和Earth Mover's Distance两种方法对真实未来轨迹和生成轨迹的质量进行评估：

对于1-Nearest Neighbor classifier，越接近50%越好。
对于EMD，越低越好。