蛙跳扩散模型轨迹预测

在这里插入图片描述

扩散模型轨迹预测

文章目录

扩散模型轨迹预测

参考论文《Leapfrog Diffusion Model for Stochastic Trajectory Prediction》
CVPR2024

1. 问题定义

目的是得到model $g_{\theta}(\cdot)$ ，参数 $\theta$ 来生成分布 $\mathcal{P}_{\theta}=g_{\theta}(\mathbf{X},\mathbb{X}_{\mathcal{N}})$ ，基于分布 $\mathcal{P}_\theta$ 来画 $K$ 个样本， $\hat{\mathcal{\mathbf{Y}}}=\{\hat{\mathbf{Y_1}},\hat{\mathbf{Y_2}},...,\hat{\mathbf{Y_K}}\}$ ，这样至少有一个样本是接近真实的未来轨迹。总体问题定义：
$\theta^{*}=\min _{\theta} \min _{\widehat{\mathbf{Y}}_{i} \in \widehat{\mathcal{Y}}} D\left(\widehat{\mathbf{Y}}_{i}, \mathbf{Y}\right), \quad \text { s.t. } \widehat{\mathcal{Y}} \sim \mathcal{P}_{\theta}$
$\mathbf{X}$ 和 $\mathbb{X}_{\mathcal{N}}$ 分别表示ego车辆的过去轨迹和neighboring车辆， $\mathbf{Y}$ 是ego车辆的未来轨迹。
通过一系列去噪步骤来学习轨迹分布，先执行前向diffusion的加噪到未来轨迹的ground-truth上，然后，用条件去噪过程从过去轨迹的噪声中来恢复未来轨迹。
Diffusion 过程：

2. 方法论

在这里插入图片描述

2.1 前向扩散

$\mathbf{Y}^{0}=\mathbf{Y}$
初始化扩散轨迹，
$\mathbf{Y}^{\gamma}=f_{\text {diffuse }}\left(\mathbf{Y}^{\gamma-1}\right), \gamma=1, \cdots, \Gamma$
使用前向 $f_{diffuse}(\cdot)$ 向 $\mathbf{Y}^{\gamma-1}$ 添加连续噪声来获取扩散后的 $\mathbf{Y}^{\gamma}$ ，其中 $\mathbf{Y}^{\gamma}$ 是第 $\gamma$ 次diffusion步骤

2.2 逆过程

$\widehat{\mathbf{Y}}_{k}^{\Gamma} \stackrel{i . i . d}{\sim} \mathcal{P}\left(\widehat{\mathbf{Y}}^{\Gamma}\right)=\mathcal{N}\left(\widehat{\mathbf{Y}}^{\Gamma} ; \mathbf{0}, \mathbf{I}\right) \text {, sample } K \text { times }$
从正态分布中抽取 $K$ 个独立同分布的样本初始化去噪轨迹 $\hat{\mathbf{Y}^\Gamma_k}$
$\widehat{\mathbf{Y}}_{k}^{\gamma}=f_{\text {denoise }}\left(\widehat{\mathbf{Y}}_{k}^{\gamma+1}, \mathbf{X}, \mathbb{X}_{\mathcal{N}}\right), \gamma=\Gamma-1, \cdots, 0$
迭代应用去噪操作 $f_{denoise}(\cdot)$ 以过去轨迹 $\mathbf{X},\mathbb{X}_\mathcal{N}$ 为条件获取去噪轨迹。
$\hat{\mathbf{Y}_k^\gamma}$ 是第 $\gamma$ 次去噪轨迹第 $k$ 次采样，最终 $K$ 个预测轨迹 $\hat{\mathcal{Y}=\left\{\hat{\mathbf{Y}}_{1}^{0}, \widehat{\mathbf{Y}}_{2}^{0}, \ldots, \widehat{\mathbf{Y}}_{K}^{0}\right\}}$
Note：
前向扩散处理不会用于推理步骤，在训练期间， $\mathbf{Y}^\gamma$ 是第 $\gamma$ 步 $\hat{\mathbf{Y}^\gamma_k}$ 的监督
每个去噪步骤都是扩散步骤的逆过程，每个 $\mathbf{Y}^{\gamma}$ 和 $\hat{\mathbf{Y}^\gamma_{k}}$ 共享基础分布。
以上是问题定义建模，传统扩散模型受限于大量去噪的步骤的运算时间限制，但是轨迹预测需要实时推理，如果去噪的步骤很少会导致未来分布的表示能力很弱。
方法
[图片]

2.3 蛙跳扩散模型的步骤

$\mathbf{X}$ 和 $\mathbb{X}_\mathcal{N}$ 分别是ego和neighboring智能体过去的轨迹， $\mathbf{Y}$ 是ego的未来轨迹， $\tau$ 是leapfrog的步数。
$\mathbf{Y}^{0}=\mathbf{Y}$
$\mathbf{Y}^{\gamma}=f_{\text {diffuse }}\left(\mathbf{Y}^{\gamma-1}\right), \gamma=1, \cdots, \Gamma$
$\widehat{\mathcal{Y}}^{\tau} \stackrel{K}{\sim} \mathcal{P}\left(\widehat{\mathbf{Y}}^{\tau}\right)=f_{\mathrm{LSG}}\left(\mathbf{X}, \mathbb{X}_{\mathcal{N}}\right)$
和标准扩散模型的步骤最主要的区别在这里，初始化器 $f_{LSG}(\cdot)$ 直接对第 $\tau$ 个去噪分布 $\mathcal{P}(\hat{\mathbf{Y}^\tau})$ 建模，假设等价于执行 $(\Gamma-\tau)$ 个去噪步骤，从分布 $\mathcal{P}(\hat{\mathbf{Y}^\tau})$ 中抽样并获取 $K$ 个未来轨迹 $\widehat{\mathcal{Y}}^{\tau}=\left\{\widehat{\mathbf{Y}}_{1}^{\tau}, \widehat{\mathbf{Y}}_{2}^{\tau}, \ldots, \widehat{\mathbf{Y}}_{K}^{\tau}\right\}$
$\widehat{\mathbf{Y}}_{k}^{\gamma}=f_{\text {denoise }}\left(\widehat{\mathbf{Y}}_{k}^{\gamma+1}, \mathbf{X}, \mathbb{X}_{\mathcal{N}}\right), \gamma=\tau-1, \cdots, 0$
在这一步，只需要对每个轨迹 $\hat{\mathbf{Y}^{\gamma}_k}$ 应用剩余 $\tau$ 个去噪步骤来获取最终的预测 $\widehat{\mathcal{Y}}=\left\{\widehat{\mathbf{Y}}_{1}^{0}, \widehat{\mathbf{Y}}_{2}^{0}, \ldots, \widehat{\mathbf{Y}}_{K}^{0}\right\}$
Note：
去噪步骤由 $\Gamma$ 减少到了 $\tau$ ，其远远小于 $\Gamma$ ，模型初始化器对 $\tau$ 去噪步骤直接提供了轨迹，加快了推理。和标准扩散模型相比，这里的抽样并非来自独立同分布的结果。
新模型和蛙跳模型使用相同的前向扩散过程，保证了表达能力。

2.4 蛙跳初始化器

通过学习的方式建模第 $\tau$ 个去噪分布 $\mathcal{P}({\hat{\mathbf{Y}}})$ ，将分布拆解为三个部分：均值、全局方差和样本预测部分。过程如下：
$\mu_{\theta}=f_{\mu}\left(\mathbf{X}, \mathbb{X}_{\mathcal{N}}\right) \in \mathbb{R}^{T_{\mathrm{f}} \times 2}$
$\sigma_{\theta}=f_{\sigma}\left(\mathbf{X}, \mathbb{X}_{\mathcal{N}}\right) \in \mathbb{R}$
$\widehat{\mathbb{S}}_{\theta}=\left[\widehat{\mathbf{S}}_{\theta, 1}, \cdots, \widehat{\mathbf{S}}_{\theta, K}\right]=f_{\widehat{\mathbf{S}}}\left(\mathbf{X}, \mathbb{X}_{\mathcal{N}}, \sigma_{\theta}\right) \in \mathbb{R}^{T_{f} \times 2 \times K}$
$\widehat{\mathbf{Y}}_{k}^{\tau}=\mu_{\theta}+\sigma_{\theta} \cdot \widehat{\mathbf{S}}_{\theta, k} \in \mathbb{R}^{T_{\mathrm{f}} \times 2}\widehat{\mathbf{Y}}_{k}^{\tau}=\mu_{\theta}+\sigma_{\theta} \cdot \widehat{\mathbf{S}}_{\theta, k} \in \mathbb{R}^{T_{\mathrm{f}} \times 2}$
其中， $f_{\mu}(\cdot), f_{\sigma}(\cdot), f_{\widehat{\mathbb{S}}}(\cdot)$ 是三个可训练模块， $\mu_{\theta}, \sigma_{\theta}$ 是 $\mathcal{P}\left(\widehat{\mathbf{Y}}^{\tau}\right)$ 的均值和方差， $\widehat{\mathbf{S}}_{\theta, k}$ 是第 $k$ 次采样的正则化位置。
$\mathbf{e}_{\mu_{\theta}}^{\text {social }}=\operatorname{softmax}\left(\frac{f_{\mathrm{q}}(\mathbf{X}) f_{\mathrm{k}}\left(\mathbb{X}_{\mathcal{N}}\right)^{\top}}{\sqrt{d}}\right) f_{\mathrm{v}}\left(\mathbb{X}_{\mathcal{N}}\right)$ 注意力模块社交编码
$\mathbf{e}_{\mu_{\theta}}^{\mathrm{temp}}=f_{\mathrm{GRU}}\left(f_{\operatorname{conv} 1 \mathrm{D}}(\mathbf{X})\right)$ GRU时序编码
$\mu_{\theta}=f_{\text {fusion }}\left(\left[\mathbf{e}_{\mu_{\theta}}^{\text {social }}: \mathbf{e}_{\mu_{\theta}}^{\text {temp }}\right]\right)$ 融合均值估计，得到轨迹均值（MLP）
采样预测模块 $f_{\widehat{\mathbb{S}}}(\cdot)$ 将标准差的估计作为输入，计算过程如下：
$\mathbf{e}_{\widehat{\mathbb{S}}_{\theta}}^{\sigma}=f_{\text {encode }}\left(\sigma_{\theta}\right)$ 将标准差的估计经过编码生成高维的embedding $\mathbf{e}_{\widehat{\mathbb{S}}_{\theta}}^{\sigma}$ ，这样标准差的估计也在样本的预测过程中涉及了。
$\widehat{\mathbb{S}}_{\theta}=f_{\text {fusion }}\left(\left[\mathbf{e}_{\mathbb{S}_{\theta}}^{\text {social }}: \mathbf{e}_{\widehat{\mathbb{S}}_{\theta}}^{\text {temp }}: \mathbf{e}_{\widehat{\mathbb{S}}_{\theta}}^{\sigma}\right]\right)$
从蛙跳初始化器获取到K个样本 $\widehat{\mathcal{Y}}^{\tau}=\left\{\widehat{\mathbf{Y}}_{1}^{\tau}, \widehat{\mathbf{Y}}_{2}^{\tau}, \ldots, \widehat{\mathbf{Y}}_{K}^{\tau}\right\}$ ，然后执行 $\tau$ 个去噪步骤来迭代精炼预测轨迹。
问题：剩余的 $\tau$ 步指的是哪 $\tau$ 步？采样K次是为了什么？

2.5 去噪模块

去噪模块 $f_{denoise}(\cdot)$ 从过去的轨迹 $(\mathbf{X},\mathbb{X}_\mathcal{N})$ 的条件下对轨迹，有两个训练模块，一个是基于Transformer的上下文编码模块学习社交-时序embedding和一个噪声估计模块 $f_{\epsilon}(\cdot)$ 用以估计需要减少的噪声。第 $\gamma$ 步去噪的流程如下：
$\mathbf{C}=f_{\text {context }}\left(\mathbf{X}, \mathbb{X}_{\mathcal{N}}\right)$ 使用上下文编码模块从过去的轨迹中获取上下文条件 $\mathbf{C}$ , $f_{context}(\mathbf{X},\mathbb{X}_\mathcal{N})$ 和 $f_{\mu}(\cdot)$ 是相同的结构
$\boldsymbol{\epsilon}_{\theta}^{\gamma}=f_{\boldsymbol{\epsilon}}\left(\widehat{\mathbf{Y}}_{k}^{\gamma+1}, \mathbf{C}, \gamma+1\right)$ 通过上下文 $\mathbf{C}$ 的多层感知机实现的噪声估计 $f_{\epsilon}(\cdot)$ 来估计带噪声轨迹 $\widehat{\mathbf{Y}}_{k}^{\gamma+1}$ 的噪声 $\boldsymbol{\epsilon}_{\theta}^{\gamma}$
$\widehat{\mathbf{Y}}_{k}^{\gamma}=\frac{1}{\sqrt{\alpha_{\gamma}}}\left(\widehat{\mathbf{Y}}_{k}^{\gamma+1}-\frac{1-\alpha_{\gamma}}{\sqrt{1-\bar{\alpha}_{\gamma}}} \boldsymbol{\epsilon}_{\theta}^{\gamma}\right)+\sqrt{1-\alpha_{\gamma} \mathbf{z}}$ 标准去噪步骤
其中 $\bar{\alpha}_{\gamma}=\prod_{i=1}^{\gamma} \alpha_{i}$ 和 $\alpha_\gamma$ 是扩散过程的参数， $\mathbf{z} \sim \mathcal{N}(\mathbf{z} ; \mathbf{0}, \mathbf{I})$ 是噪声

3. 实践

3.1训练

分为两个阶段，第一阶段训练去噪模块、第二阶段聚焦于蛙跳初始化器。
（蛙跳初始化器的在给定分布 $\mathcal{P}(\widehat{\mathbf{Y}}^\tau)$ 的情况下，蛙跳初始化器的训练更加稳定）
第一阶段使用扩散模型的标准训练模式利用噪声估计的loss训练：
$\mathcal{L}_{\mathrm{NE}}=\left\|\boldsymbol{\epsilon}-f_{\boldsymbol{\epsilon}}\left(\mathbf{Y}^{\gamma+1}, f_{\text {context }}\left(\mathbf{X}, \mathbb{X}_{\mathcal{N}}\right), \gamma+1\right)\right\|_{2}$
其中， $\gamma \sim U\{1,2, \cdots, \Gamma\},\boldsymbol{\epsilon} \sim \mathcal{N}(\boldsymbol{\epsilon} ; \mathbf{0}, \mathbf{I})$ ，扩散的轨迹 $\mathbf{Y}^{\gamma+1}=\sqrt{\bar{\alpha}_{\gamma}} \mathbf{Y}^{0}+\sqrt{1-\bar{\alpha}_{\gamma}} \boldsymbol{\epsilon}$
反向传播loss和训练的参数在上下文编码模块和噪声估计模块。
第二阶段使用可训练的蛙跳初始化器优化蛙跳扩散模型并且冻结去噪模块。对于每一个样本，loss为
$\begin{aligned} \mathcal{L} & =\mathcal{L}_{\text {distance }}+\mathcal{L}_{\text {uncertainty }} \\ & =w \cdot \min _{k}\left\|\mathbf{Y}-\widehat{\mathbf{Y}}_{k}\right\|_{2}+\left(\frac{\sum_{k}\left\|\mathbf{Y}-\widehat{\mathbf{Y}}_{k}\right\|_{2}}{\sigma_{\theta}^{2} K}+\log \sigma_{\theta}^{2}\right) \end{aligned}$
其中 $w\in\mathbb{R}$ 是超参数权重，第一项约束了K个预测的最小距离。直观上说，如果蛙跳初始化器生成分布 $\mathcal{P}(\widehat{\mathbf{Y}}^\tau)$ 的高质量估计，K个预测中之一一定与groud-truth非常接近。
第二项通过不确定性损失对重新参数化的方差估计 $\sigma_\theta$ 进行归一化，平衡预测多样性和平均精度。方差估计控制预测的分散性，弥合场景复杂性和预测多样性。
$\frac{\sum_{k}\left\|\mathbf{Y}-\widehat{\mathbf{Y}}_{k}\right\|_{2}}{\sigma_{\theta}^{2} K}$ 将 $\sigma_\theta$ 的值与场景的复杂度呈正比关系。
$\log \sigma_{\theta}^{2}$ 使用正则化器为所有的预测生成高方差。
附：作者表达了技术手段，他们并不在第二阶段对蛙跳初始化器进行估计时使用显式监督的手段的原因如下：
显式监督的实现：在初始化器的估计过程中，分布 $\mathcal{P}(\widehat{\mathbf{Y}}^\Gamma)$ 可以从正态分布中去噪，为了完成显式监督，从正态分布下的 $\mathcal{P}(\widehat{\mathbf{Y}}^\Gamma)$ 中抽样M个（M>>K），然后通过 $f_{denoise}$ 去噪直到获得去噪轨迹 $\widehat{\mathbf{Y}}^{\tau}$ ，然后使用这M个样本计算统计量作为均值估计 $f_\mu(\cdot)$ 和方差估计 $f_\sigma(\cdot)$ 的显式监督。
然而，由于 $\tau<<\Gamma$ ，那么对 $M >> K$ 个样本运行 $(\Gamma-\tau) \approx \Gamma$ 步去噪获得统计数据的过程会导致训练时间和存储消耗变得无法接受。（NBV数据集上一个epoch要6天）

3.2 推理阶段

在推理过程中，蛙跳扩散模型只需要 $\tau$ 步，而不是 $\Gamma$ 步去噪，从而加快了推理速度。具体来说，我们首先生成 K 个相关样本，以使用经过训练的蛙跳初始化器对分布 $\mathcal{P}\left(\widetilde{\mathbf{Y}}^{\tau}\right)$ 进行建模。然后，这些样本将被输入去噪过程并迭代微调以产生最终的预测；参见算法 :
在这里插入图片描述

3.3 源码

实验复现：

conda create -n led python=3.7
conda activate led

注意spconv 1.x版本已经废弃，找不到了

pip install torch==1.8.0+cu111 torchvision==0.9.0+cu111 torchaudio==0.8.0 -f https://download.pytorch.org/whl/torch_stable.html
git clone -b v1.2.1 --recursive https://github.com/traveller59/spconv.git
cd spconv
python setup.py bdist_wheel
cd dist
pip install spconv-1.2.1-cp37-cp37m-linux_x86_64.whl

https://drive.google.com/drive/folders/1Uy8-WvlCp7n3zJKiEX0uONlEcx2u3Nnx
数据下载地址
训练

python main_led_nba.py --cfg led_augment --gpu 0 --train 1 --info try1

在这里插入图片描述

3.4 问题记录

问题：
在这里插入图片描述
查看日志文件
[图片]

看到了两处报错，一处是LIBC_PTHREAD找不到，一处是nvcc报错。
经过排查，需要完整克隆指令（https://github.com/traveller59/spconv/issues/264）
在这里插入图片描述

0.11.4这个不兼容torch 1.8.0

扩散模型轨迹预测

文章目录

1. 问题定义

2. 方法论

2.1 前向扩散

2.2 逆过程

2.3 蛙跳扩散模型的步骤

2.4 蛙跳初始化器

2.5 去噪模块

3. 实践

3.1训练

3.2 推理阶段

3.3 源码

3.4 问题记录

猜你喜欢

目录

热门文章