元のリンク: https://arxiv.org/abs/2303.08333
1 はじめに
多くの場合、カメラ パラメーターや LIDAR スキャンからのノイズにより、BEV の機能が不要なノイズで汚染されることがあります。拡散モデルにはノイズ除去機能があり、ノイズの多いサンプルを理想的なデータに復元できます。この論文では、条件付き拡散確率モデル (DPM) を使用して BEV 特徴の品質を向上させる DiffBEV を提案します。次に、クロスアテンションにより、条件付き拡散モデルの出力と元の BEV 機能が融合されます。
DiffBEV は、さまざまなダウンストリーム タスク ブランチにアクセスし、エンドツーエンドのトレーニングを実行できます。
3. 方法
3.1 概要
以下の図に示すように、この記事のモデルは、画像ビュー バックボーン、ビュー トランスフォーマー、条件付き拡散モデル、クロス アテンション、タスク関連デコーダーに分かれています。
実際の実装では、LSS がデフォルトのビュー トランスフォーマーとして使用されます。
3.2 条件付き拡散確率モデル
3.2.1 拡散確率モデル
本稿では、ビュートランスフォーマーの出力特徴を拡散モデルの条件として使用します。xT x_TにしましょうバツT標準正規分布N ( 0 , I ) \mathcal{N}(0,I) に従うにはN ( 0 ,I )ノイズ、拡散モデルは徐々に変換されますx T x_TバツT元のサンプルに変換x 0 x_0バツ0。t 番目 ( 0 ≤ t ≤ T ) t(0\leq t\leq T)とします。t ( 0≤t≤T )ステップの分散はβ t \beta_tとして記録されます。bた。
条件付き拡散確率モデルの順方向プロセスは次のとおりです: q ( xt ∣ xt − 1 ) 〜 N ( xt ; 1 − β txt − 1 , β t I ) q(x_t|x_{t-1})\sim \mathcal{ N}(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)q ( xた∣ xt − 1)〜N ( ×た;1−bたバツt − 1、bたI ) 记α t = 1 − β t , α ˉ t = ∏ s = 1 t α s \alpha_t=1-\beta_t,\bar{\alpha}_t=\prod_{s=1}^t\alpha_sあるた=1−bた、あるˉた=∏s = 1たあるs。それから、ttthステップtにおけるノイズのあるサンプル q ( xt ∣ x 0 ) ∼ N ( xt ; α ˉ tx 0 , ( 1 − α ˉ t ) I ) xt ∼ α ˉ tx 0 + 1 − α ˉ t ϵ q(x_t|x_0 ) \sim\mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I)\\x_t\sim\sqrt{\bar{\alpha } _t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilonq ( xた∣ x0)〜N ( ×た;あるˉたバツ0、( 1−あるˉた)私)バツた〜あるˉたバツ0+1−あるˉたϵ増分ϵ 〜 N ( 0 , I ) \epsilon\sim\mathcal{N}(0,I)ϵ〜N ( 0 ,私)。
ノイズ除去プロセスにより、ノイズの多いサンプルが徐々に修正されますxt x_tバツた確実に: p θ ( xt − 1 ∣ xt ) ∼ N ( xt − 1 ; μ θ ( xt , t ) , Σ θ ( xt , t ) ) p_\theta(x_{t-1}| x_t)\sim\ mathcal{N}(x_{t-1};\mu_\theta(x_t,t),\sigma_\theta(x_t,t));p私( ×t − 1∣ xた)〜N ( ×t − 1;メートル私( ×た、t ) 、S私( ×た、t ))其中Σ θ ( xt , t ) \Sigma_\theta(x_t,t)S私( ×た、t )は共分散予測子ϵ θ ( xt , t ) \epsilon_\theta(x_t,t)ϵ私( ×た、t )はノイズ除去モデルです。この記事では、U-Net の典型的なバリアントをノイズ除去モデルとして使用します。
3.2.2 条件設計
3 つのオプションの条件タイプがあります: (1)ビュー トランスフォーマ W によって出力される元の BEV 特徴 FO − BEV ∈ RC × H × WF^{O-BEV}\in\mathbb{R}^{C\times H\times 出力}FO − BE V∈RC × H × W ; (2)深度分布から学習した意味特徴 FS − BEV ∈ RC × H × WF^{S-BEV}\in\mathbb{R}^{C\times H\times W}FS − BE V∈RC × H × W;(3)FO − BEVF^{O-BEV}FO−BEV和 F S − B E V F^{S-BEV} FS − BE Vの合計。
ビュー トランスフォーマーは、深度分布F d ∈ R c × h × w F^d\in\mathbb{R}^{c\times h\times w} を予測します。Fd∈Rc × h × w。1 × 1 1\times1を使用します1×1コンボリューションでチャンネル数を変換し、F d F_dFd補間はFS − BEVF^{S-BEV}です。FS − BE V 、 FO − BEVF^{O-BEV}と等しくなりますFO − BE V は同じ寸法です。
上記の手順はあまり明確ではありません。h 、w、wh、wは画像の長さと幅ですか? 「はい」の場合、画像ビューの特徴から補間によって BEV の下の特徴を取得するにはどうすればよいですか?
この記事では、条件付き拡散モデルがサンプルを段階的にノイズ除去することで、正確な境界や詳細な形状など、オブジェクトの詳細な内容を学習できるようになることを期待しています。条件にノイズを追加する場合は標準 DPM と同じですが、ノイズを除去する場合は、前の図に示すように条件付き変調ノイズ除去が使用されます。
あっと_ステップt、ノイズのある BEV 特徴xt x_tバツたおよび条件xcond x_{cond}バツ条件_ _,xt x_tバツたさらにエンコードされ、 xcond x_{cond}による要素ごとの乗算が渡されます。バツ条件_ _交流。
3.3 クロスアテンション
条件付き拡散モデルの出力を取得した後、以下の図に示すように、元の BEV の特徴を修正するクロス アテンションを設計します。
条件付き拡散モデルの出力はKKとなります。KとVVV、元の BEV 機能はQQQ。公式はCA ( Q , K , W ) = A ttn ( QW i Q , KW i K , VW i V ) WO ut A ttn ( Q , K , V ) = Softmax ( QKT dk ) V CA(Q, K,W)=Attn(QW^Q_i,KW^K_i,VW^V_i)W^{Out}\\Attn(Q,K,V)=\text{softmax}(\frac{QK^T}{\ sqrt{d_k}})VC A ( Q ,K 、わ)=あっとん( QW _ _ _私Q、KW _私K、VW _私V) Wアウト_ _A tt n ( Q ,K 、V )=ソフトマックス(dkQ KT) V
3.4 トレーニングの損失
深さの損失。与えられた内部パラメータ行列K i ∈ R 3 × 3 K_i\in\mathbb{R}^{3\times3}K私は∈R3 × 3、回転行列R i ∈ R 3 × 3 R_i\in\mathbb{R}^{3\times3}R私は∈R3 × 3と変換行列ti ∈ R 3 t_i\in\mathbb{R}^3t私は∈R3.深度損失L Depth \mathcal{L}_{ Depth}L深さ_ _補助トレーニング。バイナリ クロス エントロピー (BCE) 損失を使用します。予測された深度マップをD i D_iとするD私は,深度损失次のように:P i = K i ( R i P + ti ) 、 Di ∗ = one _ hot ( Pi ) 、 L 深さ = BCE ( Di ∗ , Di ) P_i=K_i(R_iP+t_i) ),D^*_i=one\_hot(P_i),\mathcal{L}_{深さ}=\text{BCE}(D_i^*,D_i)P私は=K私は( R私はP+t私は)、D私∗=オンネ_ホット( P _ _ _私は)、L深さ_ _=紀元前( D私∗、D私は)こちらPP_Pはレーザー点群内の点の座標、P i P_iP私はそれはiiにあるということですiビュー画像に投影された座標では
拡散損失。しましょうステップtでのガウス ノイズはz ˉ t \bar{z}_tzˉたの場合、拡散損失はL diff = E [ ∥ z ˉ t − Σ θ ( α ˉ tx 0 + 1 − α ˉ tz ˉ t , t ) ∥ 2 ] \mathcal{L}_{diff}=\mathbb{ E }[\|\bar{z}_t-\Sigma_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\bar{z}_t,t ) \|^2]Lディフ_ _=E [ ∥zˉた−S私(あるˉたバツ0+1−あるˉたzˉた、t ) ∥2 ]
ミッションロス。総損失は、BEV セグメンテーション損失/検出損失、深さ損失、拡散損失の加重合計です。
3.5 タスクデコーダ
BEV セグメンテーション ヘッドは残差ネットワークを使用し、検出ヘッドは CenterPoint の検出ヘッドを使用します。
4. 実験
4.3 BEV セマンティック セグメンテーション
動的ターゲットは通常小さく、出現頻度が低いため、LSS は広い範囲をカバーする静的ターゲットのセグメンテーションに対して正確です。
DiffBEV では、DPM がノイズを削減し、対象のオブジェクトにより多くの空間情報を追加できるため、静的オブジェクトと動的オブジェクトの両方をセグメント化する際のパフォーマンスが大幅に向上します。
4.4 3D ターゲット検出
条件付き拡散モデルの導入後、すべての指標が改善されました。これは、モデルが元の BEV の機能を徐々に改良し、クロスアテンションを通じて意味論的なコンテキストを対話的に交換できるためです。
4.5 アブレーション研究
4.5.1 条件付き設計
静的な道路セグメンテーションに関する実験では、さまざまな条件を使用することでモデルが識別可能な BEV 特徴を取得できることが示されています。ここで、FS − BEVF^{S-BEV}が使用されますFS − BE Vのパフォーマンスが最高、FO − BEVF^{O-BEV}FO − BE Vのパフォーマンスは比較的最悪です。
4.5.2 機能相互作用メカニズム
このペーパーでは、3 つの機能相互作用メカニズム、つまり連結、合計、クロスアテンションを比較します。
クロスアテンションを使用すると、より優れた BEV 特徴を学習できるため、下流の知覚タスクに有益です。条件付き設計と機能相互作用メカニズムを総合的に考慮して、FS − BEVF^{S-BEV}を使用しますFS − BE Vとクロスアテンションの組み合わせのパフォーマンスは最適です。
4.5.3 ノイズのある BEV サンプルのコーディング メカニズム
条件付き拡散モデルでは、ノイズの多い BEV サンプルxt x_tバツたこの論文では、(1) セルフ アテンション セマンティック マップを計算する、(2) 畳み込みによって洗練されたアフィニティ マップ (アフィニティ マップ) を取得する、という 2 つのエンコード方法を検討します。前者を使用するとパフォーマンスが向上しますが、後者の方が計算負荷が少なくなります。
4.6 その他のビューチェンジャー
LSS を他のビュートランスフォーマーに置き換えて実験を行ったところ、DiffBEV は拡散モデルを使用しない元の方法よりも高いパフォーマンスを示すことがわかりました。
4.7 視覚的分析
この視覚化は、DiffBEV がより正確なセマンティック マップを提供し、細かい詳細 (隣接する車両間の分離、静止道路の明確な境界など) を解決できることを示しています。
補足資料
A. トレーニングの損失
A.1 セグメンテーション損失
MM 用Mカテゴリのセマンティック セグメンテーション、トレーニング損失をMMに分解可能M 個の加重二項分類損失: L wce = ∑ c = 1 M wc N pos [ − ∑ i = 1 N posyi log pci − ∑ i = 1 N neg ( 1 − yi ) log ( 1 − pci ) ] \ mathcal {L}_{wce}=\sum_{c=1}^M\frac{w_c}{N_{pos}}[-\sum_{i=1}^{N_{pos}}y_i\log p_{ ci }-\sum_{i=1}^{N_{neg}}(1-y_i)\log(1-p_{ci})]L何?=c = 1∑MNpos _wc[ −i = 1∑Npos _y私はログ_p私_−i = 1∑Nいいえ_ _( 1−y私は)ログ( 1 _−p私_)]ここで、pci p_{ci}p私_は各ピクセルの予測された分類信頼度、wc w_cwcカテゴリ分布に基づいて計算されたカテゴリの重みです。いいよy私はピクセルのセマンティックラベルを表します。N 位置 N_{位置}Npos _和 N n e g N_{neg} Nいいえ_ _は正と負のサンプルの数です。