[論文ノート] MetaBEV: BEV 検出と地図分割のためのセンサー障害の解決

元のリンク: https://arxiv.org/abs/2304.09801

1 はじめに

  現在、マルチモーダルフュージョンセンシングにおける大きな問題は、センサーの故障の影響が無視されていることです。以前の作業に関する主な問題は次のとおりです。

  1. 特徴の位置ずれ: CNN は通常、結合された特徴マップの処理に使用されますが、幾何学的ノイズの存在により特徴の位置ずれが生じる可能性があります。これは、長距離の知覚と入力に対する適応的な注意における CNN の限界に起因すると考えられます。
  2. 完全なモダリティへの依存度が高い: クエリベースのメソッドまたはチャネルベースの融合メソッドは完全なモーダル入力に大きく依存しており、特定のモダリティが失敗するとパフォーマンスが大幅に低下します。

  本稿では、使用されるモダリティや特定のタスクに関係なく、統一されたBEV表現の下で上記の問題を解決するMetaBEVを提案します。既存の方法のボトルネックは、融合モジュールが独立して融合する能力に欠けていることであるため、この論文では、クロスモーダルな注意を使用してシングルモーダルまたはマルチモーダルの特徴を関連付ける任意モーダル BEV 進化的デコーダを提案します。
  この記事では、6 種類のセンサーの故障 (視野制限 (LF)、ビーム縮小 (BR)、物体損失 (MO)、視野損失 (VD)、視野ノイズ (VN)、障害物遮蔽 (OO) を含む) と 2 種類のセンサー障害について検証します。センサー損失 MetaBEV は、ライダー損失 (ML)、カメラ損失 (MC) の場合に評価されました。実験により、MetaBEV は強力な堅牢性を備えていることがわかりました。
  さらに、この記事では共有フレームワークを使用してマルチタスクを処理します。ただし、マルチタスク間の競合はパフォーマンスの低下につながるため、対応するソリューションを分析して設計する作業はほとんどありません。この記事では、MetaBEV とマルチタスク ハイブリッド エキスパート (M 2^2)を組み合わせます。2oE ) マルチタスク学習に可能なソリューションを提供するモジュール統合。

3. MetaBEV方式

  この論文は、パラメータ化されたメタ BEV を通じてさまざまなモダリティを接続し、クロスモーダル アテンションを使用して各モダリティからの幾何学的および意味論的な情報を統合します。ネットワークは以下の図に示されており、特徴エンコーダー、BEV Evolution デコーダー (クロスモーダル変形可能アテンション付き)、およびタスク ヘッドで構成されます。
  

3.1 BEV 機能エンコーダの概要

  MetaBEV は、BEV の下で融合機能を生成し、マルチモーダル機能を組み合わせてさまざまなタスクに適応します。
  カメラ/ライダーから BEV : BEVFusion メソッドを使用して、画像バックボーンを使用してマルチビュー画像特徴を抽出し、LSS に従って画像特徴を 3D 空間にアップグレードし、圧縮して BEV 特徴マップ B c B_c を取得しますBcLIDAR がボクセル化された後、3D スパース畳み込みエンコーディングがBEV のB l B_lを表現するために使用されます。B

3.2 BEV進化デコーダ

  この部分は、クロスモーダル アテンション レイヤー、セルフ アテンション レイヤー、プラグ アンド プレイ M2 ^2の 3 つのコンポーネントで構成されます。2oEブロック。その構造を下図に示します。
ここに画像の説明を挿入します
  クロスモーダル アテンション レイヤーB m B_mと呼ばれる高密度 BEV クエリを初期化します。Bメートル位置エンコーディングを追加した後、各モダリティを操作します。効率を上げるために、この記事では変形可能な注意DAttn ( ⋅ ) \text{DAttn}(\cdot)を使用します。だあっ( )しかし、本来の変形可能な注意は、任意のモーダル入力の処理には適していません。この記事では、モダリティ関連の MLP (上図の C-MLP および L-MLP) を使用して、サンプリング ポイントと注意の重みAAA._ _ 与えられた BEV 式x ∈ { B c , B l } x\in\{B_c,B_l\}バツ{ BcB}、最初にモーダル関連のサンプリング オフセットΔ px \Delta p^xΔp _xと注目の重みA x A^xx、前者はサンプリング特徴の位置を特定するために使用され、後者はサンプリング特徴をスケールするために使用されます。次に、メタ BEV は、スケーリングされたサンプリング機能を使用して更新されます。プロセス全体は次のように表すことができます。DAttn ( B m , p , x ) = ∑ m = 1 MW m [ ∑ x ∈ { B c , B l } ∑ k = 1 KA mkx ⋅ W m ' x ( p + Δ pmkx ) ] \text{DAttn}(B_m,p,x)=\sum_{m=1}^MW_m[\sum_{x\in\{B_c,B_l\}}\sum_{k=1}^KA_ {mk} ^x\cdot W'_{m}x(p+\Delta p_{mk}^x)]DAttn ( Bメートルp × =m = 1MWメートル[x { BcB}k = 1Kmk×Wメートルx ( p+Δp _mk×)]ここでmmmはアテンションヘッド、KKK はサンプリング ポイントの数を表し、pppは基準点を表します。WmW_mWメートルそしてWm'W'_mWメートル学習可能な射影行列を表します。
  クロスアテンション メカニズムは機能を層ごとに融合し、メタ BEV が融合された機能に繰り返し「進化」することを可能にします。
  セルフアテンション層: 上記のプロセスにはクエリ間の対話は含まれません。この記事ではセルフアテンションを使用します。使用Bm B_mBメートル前の式のxxを置き換えますx、自己注意の式を取得DAttn ( B m , p , B m ) \text{DAttn}(B_m,p,B_m)DAttn ( Bメートルp BメートルM 2 ^\ textbf{2}
  2 oE ブロック: 混合エキスパート層 (MoE) を通じて大規模言語をモデル化する以前の方法に続き、この記事では MLP を BEV 進化ブロックに導入し、M2 ^2前の図の I と II に示すように、 2 oE ブロックはマルチタスク学習に使用されます。
  最初に RM2^22 oE:M 2 oE ( x ) = ∑ i = 1 t R ( x ) i E i ( x ) , t ≪ E \text{M}^2\text{oE}(x)=\sum_{i= 1}^t\mathcal{R}(x)_i\mathcal{E}_i(x),t\ll EM2oE (×)_=i = 1R ( × )私はE私は( x ) tEここでxxxは入力 RM2^22 oE-FFNのトークン、R : RD → RE \mathcal{R}:\mathbb{R}^D\rightarrow\mathbb{R}^ER:RDREは、対応するエキスパートにトークンを割り当てる経路探索関数です。E i : RD → RD \mathcal{E}_i:\mathbb{R}^D\rightarrow\mathbb{R}^DE私は:RDRDエキスパートiiiによって処理されたトークンR \数学{R}R E i \mathcal{E}_i E私はどちらもMLP、EEですEはエキスパートの数を決定するハイパーパラメータです。各トークンについて、R \mathcal{R}R は最も高い確率でtt を選択しますT人の専門家が割り当てられているため、多数の専門家が非アクティブになります。
  HM2^22 oE は RM2^22oE ( EE)の縮退バージョンEはタスクの数に等しく、t = 1 t=1t=1)。トークンは、対応するタスクの FFN ネットワークを介したパス割り当てプロセスをバイパスし、タスク融合ネットワークに融合されます。このプロセスでは、異なる専門家を通じて複数のタスクの競合する勾配を分離することで、タスクの競合を軽減できます。

3.3 センサーの故障

  この記事では、6 つのセンサー障害モードを定義します。

  1. LiDAR の限られた視野 (LF): 不適切な収集または部分的なハードウェアの損傷により、LIDAR は視野の一部からしかデータを取得できません。
  2. Missing Object (MO): 特定のマテリアルは LIDAR ポイントの反射を防ぎます。
  3. ビーム低減 (BR): エネルギーまたはセンサーの処理能力が限られているため。
  4. ビューロス (VD): カメラの故障によるもの。
  5. ビューノイズ (VN): カメラの故障によるもの。
  6. 障害物オクルージョン (OO): オブジェクトはカメラ ビューから遮られます。

  さらに、このペーパーでは、カメラの損失と LIDAR の損失という 2 つの重大なセンサー欠落シナリオも考慮しています。

3.4 スイッチモードトレーニング

  本稿では、トレーニング中にあらかじめ定義された確率に従って特定のモードからランダムに入力を受け取り、どのモードを使用しても高い精度を保証するスイッチングモードトレーニング手法を提案します。

4. 実験

4.2 フルモードでのパフォーマンス

  実験の結果、ターゲット検出タスクでは、MetaBEV が単一画像モードで既存モデルのパフォーマンスを大幅に上回ることができ、ライダー シングル モードとカメラ ライダー マルチモダリティの両方が SotA と同等のパフォーマンスを達成できることが示されています。BEV セマンティック セグメンテーション タスクの場合、MetaBEV は LIDAR シングル モードとカメラ LIDAR マルチモダリティの両方で以前の方法を大幅に上回ることができます。

4.3 センサー故障時の性能

  センサーが失われた場合、従来の手法では欠落した特徴を処理できませんでしたが、本論文では、ネットワークが予測結果を出力できるように、欠落した特徴をすべて 0 の値に置き換えます。実験では、MetaBEV がモーダル損失に対してより堅牢であることが示されており、特に LIDAR がない場合、検出パフォーマンスは BEVFusion を大幅に上回る可能性があり、カメラがない場合、BEV セグメンテーション パフォーマンスは BEVFusion を大幅に上回る可能性があります。カメラが失われた場合でも、MetaBEV は LiDAR シングルモダリティ SotA モデルのパフォーマンスを上回ります。
  センサー部分が故障した場合、ゼロサンプルテストとインドメインテストの2つの評価方法を実施します。前者では、センサーが部分的に故障したときにトレーニング モデルが直接テストされ、後者では、センサーが部分的に故障したときにトレーニング モデルが最初にトレーニングされてからテストされます。実験によれば、MetaBEV は 2 つのテスト方法で BEVFusion を上回ることができます。

4.4 マルチタスク学習のパフォーマンス

  MoE を追加しなくても、MetaBEV のパフォーマンスはすでに SotA に達する可能性があります。2 種類の MoE を追加することで性能が向上し、RMoE は HMoE よりも向上します。

4.5 アブレーション研究

  ネットワーク構成: まず、レイヤーの組み合わせ、サンプリング ポイントの数、エキスパートの数など、BEV Evolution デコーダーの最適な構造を見つけます。実験の結果、少数のクロスアテンション レイヤーと少数のサンプリング ポイントを使用することで十分なパフォーマンスが達成できることが示されています。さらに、セルフ アテンション レイヤーを追加すると、クエリ間の相関関係が取得されるため、パフォーマンスも向上します。RMoE では、より多くのエキスパートを使用して割り当てることで、より良いパフォーマンスを達成できます。
  スイッチング モダリティ トレーニング: フル モダリティ トレーニングと比較して、スイッチング モダリティ トレーニングは欠落モードでのパフォーマンスを大幅に向上させることができ、フル モードでのパフォーマンスもわずかに向上させることができます。

補足資料

7. 実装の詳細

7.2 センサーの故障

  1. 限られた視野 (LF) : 特定の角度範囲内の LIDAR 点群のみを入力します。
  2. オブジェクト欠落 (MO) : オブジェクトからのポイントは確率的にドロップされます。
  3. ビーム削減 (BR) : ビームの LIDAR 部分からポイントを選択します。
  4. ビュー ノイズ (VN) : ビュー画像の一部または全体にランダム ノイズを追加します。
  5. ビュー ドロップアウト (VD) : 部分的なビューがランダムに破棄され、すべてゼロの入力に置き換えられます。
  6. 障害物オクルージョン (OO) : 事前定義されたマスクを生成し、それらを画像ビューとアルファ ブレンドします。

7.3 トレーニングの詳細

  画像と LIDAR には MMDetection3D の標準データ拡張を使用し、クラスのバランスをとるために CBGS を使用します。
  マルチタスク トレーニング中に、セグメンテーション ヘッドが事前トレーニングされた 3D 検出ネットワークに挿入され、ネットワーク全体が微調整されます。
  スイッチング モダリティ トレーニング方法を使用してトレーニングする場合、さまざまなモーダルの組み合わせの入力確率が平均して設定されます。

おすすめ

転載: blog.csdn.net/weixin_45657478/article/details/132247523