ICCV 2023 口頭 | SLAM/SfM が同様の非ループバック シナリオをどのように処理すべきかを理解するための 1 つの記事

著者: ピクルスペッパー風味のチューインガム | 出典: 3D Vision Workshop

公開アカウント「 3D Vision Workshop 」のバックエンドで、「Original Paper」と返信して論文の PDF とコードのリンクを取得します。

WeChat: dddvisiona、メモ: SLAM を追加して、グループに参加します。業界セグメンテーション グループは記事の最後に添付されています。

0. 著者の個人的な経験

SLAM と SfM では、類似した構造は常に困難ですが、対処する必要がある問題でした。ロボットが非常に似ているが実際には異なる構造に遭遇した場合、一致の数が十分に多いため、誤検知ループバックや再構成の失敗が容易に発生します。従来の方法では、依然として一致数の閾値や他の幾何学的関係の比率閾値を判断に使用していますが、この方法は対称性の高い構造に遭遇すると簡単に失敗する可能性があります。

今日、著者はこの問題に対する新しい解決策を紹介します。それは、2 つのビューが同じであるか、または単に類似しているかを自動的に判断できる、ICCV 2023 Oral によって提案されたドッペルゲンガーです。このソリューションは実際に、視覚的な曖昧さ回避の問題を画像ペアのバイナリ分類タスクとしてモデル化し、学習ベースのソリューションとデータ セットを開発します。こちらも新講座「3Dビジョンワークショップ」「(第2回)ORB-SLAM3理論解説とコード解析」もお勧めです。

1.エフェクト表示

以下に、人間の目で見ても同じ光景とみなしやすい代表的な類似構造をいくつか挙げます。SLAM と SfM がこのようなシナリオに遭遇すると、誤検知ループバックがトリガーされやすくなり、その結果、追跡損失や再構築の失敗が発生します。

ff59a84f279db7467e154586dfba2ad1.png

この記事のドッペルゲンガーは、主にこのタイプのシーンにおけるマッチングと再構成の問題を解決します。再構成に使用されるシーンが非常に対称的で類似した構造を持っている場合でも、薄い部分から多かれ少なかれ構造を持たなくても、完全な 3 次元再構成を実行できます。空気。

63cd80d1469b106a6bca5770f87c1c19.png 3589823e51e51cc68a32f105698937bd.png

2. まとめ

視覚的に類似した画像のペアが同じまたは異なる 3 次元表面 (たとえば、対称的な建物の同じ側または反対側) を描いているかどうかを判断する視覚的曖昧さ解消タスクを検討します。2 つの画像が異なるが視覚的に類似した 3D 表面を観察する誤った画像マッチングは、人間にとって区別するのが難しく、3D 再構成アルゴリズムが誤った結果を生成する可能性もあります。画像ペアのバイナリ分類タスクとしてモデル化された学習ベースの視覚的曖昧さ回避方法を提案します。この目的を達成するために、この問題に新しいデータセットであるドッペルゲンガーを導入します。このデータセットには、実際のラベルを持つ同様に構造化された画像のペアが含まれています。また、ローカルのキーポイントと一致する空間分布を入力として受け取るネットワーク アーキテクチャも設計し、ローカルおよびグローバルな手がかりについてより適切な推論を可能にします。私たちの評価では、私たちの方法が困難な場合でも誤った一致を区別でき、SfM パイプラインに統合して正確で明確な 3D 再構成を生成できることが示されています。

3. アルゴリズム解析

ここで、タスクを段階的に分解してみましょう。SLAMと SfM を実行するときに、非常によく似た構造を持つシーンに遭遇した場合でも、3D 再構築と追跡を正しく実行できることを望みます。また、再構築結果が突然不一致になるような不一致があってはならないと考えています。偽陽性ループは言うまでもなく、ピースが 1 つ多いか 1 つ少ない。

具体的なタスクの説明:

非常によく似た 2 つの画像が与えられ、それらが同じ構造の同じ表面であるか、それとも 2 つの異なる 3D 構造 (著者はこれらをドッペルゲンガーと呼んでいます) であるかを判断します。これは主に、対称的な建物、繰り返される視覚要素、および複数の同一のランドマークを含むシーンで発生します。

分析の結果、非常に対称的な建物から撮影された 2 つの画像は全体的に非常によく似ており、画像のペアを通じてポジティブとネガティブを直接区別することは困難であるものの、内部の詳細には依然としていくつかの違いがあることが判明しました。これらの詳細が配置されている領域は、画像マッチングを実行する際にほとんど一致関係がないため、この微妙な違いを使用して画像を区別することができます実はこれは人間の「違いを見つける」という考え方と一致しています。

0dda091da669e2b64b42255c0580e16e.png

この発見に基づいて、著者は視覚的な曖昧さを排除するための学習ベースの方法を提案し、同様の構造と GT ラベルを持つデータセットも公開しました。

この類似シーン認識アルゴリズムの原理は、まず RANSAC を使用して基本行列を推定し、異常一致をフィルタリングします (具体的な実験では、LoFTR+RANSAC を直接使用して一致を計算します)。次に、元の画像、抽出された特徴点を入力し、一致した特徴点をネットワークに取り込むと、類似画像の確率が出力され、類似性認識が二項分類問題に変換されます。

d3730d1fa205733a8402f797335256f1.png

このアルゴリズムの考え方は、キー ポイントと一致する位置を使用してネットワークに情報を提供することです。これにより、ネットワークはどのキー ポイントが一致するかだけでなく、どのキー ポイントが一致しないかも把握できるようになり、対応する領域が欠落情報や異なるターゲットを表す可能性がありますが、これは非常に重要な点の空間分布情報を利用してマッチングします視覚的には、同様の構造を持つ領域の一致はより密になりますが、異なる構造を持つ領域の一致はより疎になることは明らかです。

異なる構造領域をより適切に比較するために、著者は入力画像のペアを幾何学的に位置合わせし、つまりアフィン変換を推定し、画像とバイナリ マスクをワープしました。もちろん、この位置合わせは必ずしも特に正確であるわけではありませんが、2 つの重なり合う領域をより適切に接続できるようにしたいと考えています。

特定のトレーニングに関しては、著者はFocal lossも使用します。これも分かりやすいですが、似た構造の特徴点のマッチングは正サンプルと負サンプルの間でアンバランスでなければなりませんが、焦点損失を使用すると、区別が難しいサンプルの寄与を増やすことができます。

4. 実験

バイナリ分類に使用されるネットワーク構造は非常に単純で、3 つの残差モジュール、平均プーリング、および完全に接続された層で構成されます。10 エポックのみがトレーニングされ、バッチ サイズは 16 に設定され、学習率は 0.0005 から 0.000005 に減少しました。

実験では主に、彼らが提案したドッペルゲンガーデータセットに対する視覚的曖昧さ除去のパフォーマンスを評価し、次にトレーニングされた画像2分類器をSfMに統合し、再構成効果による曖昧さ除去パフォーマンスを評価し、最後にアブレーション実験を行って各モジュールが有用であることを証明します。 。

1 つ目は、ローカル特徴マッチングのみを使用して、画像ペアが陽性 (真) 一致であるかどうかを予測することです。比較のベースラインには、SIFT+RANSAC、LoFTR、DINO-ViT (自己教師あり SOTA 分類/セグメンテーション) が含まれます。著者が使用したマッチング方法には、(1) 幾何検証後の一致数を閾値処理する方法、(2) キーポイント数に対する一致数の比率を閾値処理する方法の 2 種類があります。(2) の背後にある考え方は、キーポイントの数に対して一致が非常に少ない場合は、不一致である可能性が高いということです。著者がトレーニングしたモデルの AP は 95.2%、ROC AUC は 93.8% です。DINO の結果はあまり良くありません。主な理由は、DINO が生成する特徴は意味論的な分類タスクには非常に適していますが、視覚的な曖昧さの解消には適していないためです。

de4212296e5b7d6c6ee7eded88b3d134.png

以下は、テスト画像のペアと、対応する正の一致確率です。この定性的な比較は依然として非常に詳細であり、多くの実験シナリオがあります。左の列は一致関係の負のペア (誤) を表し、右の列は正のペア (正) を表します。さらに目を引くのは、異なる照明、視野角の変化、天候の変化などの困難な条件下でも、正の一致関係と負の一致関係を正しく分類できることです。

66ef062b18c0daa9fb1ce8967f0b80a7.png

著者らは、反復/対称シーンにおける 3D 再構成効果を評価するために、学習したバイナリ分類器を COLMAP に統合しました。使用するランドマークは 2 種類あり、対称性や繰り返し構造により再構成が困難な 13 個のランドマークと、主に一般化のテストを目的として、トレーニング データと大きく異なる繰り返し構造を持つ 3 つのシーンが含まれます。

次の表は SfM の再構成結果です。2 列目はデータセット内のシーンの数を表します。他の √ と ❌ は再構成が成功したかどうかを表します。成功したかどうかは、Google Earth の対応する構造と比較されます(三次元再構築の効果を評価する新たなポイント?)。

fac163e6266c1da71ee1444c480693be.png

以下は、COLMAPを用いて直接再構成したモデルと著者が提案した手法の再構成効果を比較したものである。明らかに、COLMAP を直接使用すると、多くの冗長なタワー、ドーム、その他の構造が何もないところから作成されます。しかし、著者が提案した方法は、この対称的な類似構造の「意味上の曖昧さ」を十分に排除し、完全な三次元モデルを再構成することができます。こちらも新講座「3Dビジョンワークショップ」「(第2回)ORB-SLAM3理論解説とコード解析」もお勧めです。

9e465f489d3617f3ea7400d052071a8b.png

最後の実験はアブレーション実験です。特に言うことはありません。主に、バイナリ分類器に対するさまざまなネットワーク構造の使用、データ強化の有無、およびさまざまなネットワーク入力によるパフォーマンスの比較を比較します。

24428aa4a1deac7c8afcf5b89601c1a3.png

5. まとめ

ドッペルゲンガーは、特定のタスクを解決し、類似した構造の 2 つの分類を実装し、非常に重要な問題を解決する記事です。ドッペルゲンガーの実験は画像マッチングや SfM に重点を置いていますが、個人的には SLAM シナリオにも適用しやすいと感じています。

-終わり-

3Dビジョン三部作を効率的に学ぶ

最初のステップは、業界交流グループに参加し、テクノロジーの進歩を維持することです。

現在、ワークショップは、SLAM、産業用 3D ビジョン、自動運転などの 3D ビジョンの方向に複数のコミュニティを確立しています。サブディビジョン グループには、次のものが含まれます: [ 産業方向 ] 3D 点群、構造化光、ロボット アーム、欠陥検出 3D計測、TOF、カメラキャリブレーション、総合グループ [ SLAM 方向] マルチセンサーフュージョン、ORB-SLAM、レーザー SLAM、ロボットナビゲーション、RTK|GPS|UWB およびその他センサー交換グループ、SLAM 総合ディスカッショングループ [自動運転方向]深度推定、トランスフォーマー、ミリ波|ライダー|視覚カメラセンサー座談会、マルチセンサーキャリブレーション、自動運転総合グループなど [ 3D再構築の方向性] NeRF、colmap、OpenMVSなど これらに加えて、就職活動、ハードウェアの選択、ビジュアル製品の実装のためのコミュニケーション グループもあります。WeChat でアシスタントを追加できます: dddvisiona、注: グループ + 方向 + 学校 | 会社を追加すると、アシスタントがあなたをグループに追加します。

3c742bd22d7bb142901298eda75196a3.jpeg
アシスタント WeChat: cv3d007 を追加してグループに参加します
2 番目のステップは、Knowledge Planet に参加して、質問にタイムリーに回答してもらうことです。

3D ビジョン分野のビデオ コース (3D 再構成、3D 点群、構造化光、ハンドアイ キャリブレーション、カメラ キャリブレーション、レーザー/ビジュアル SLAM、自動運転など)、ソース コード共有、ナレッジ ポイントの概要、入門および上級学習ルート、最新論文の共有、質問回答など、大手メーカー各社のアルゴリズムエンジニアが技術指導を行います。同時に、Planet は有名企業と協力して 3D ビジョン関連のアルゴリズム開発ポジションやプロジェクト ドッキング情報を公開し、テクノロジー、雇用、プロジェクト ドッキングを統合した熱心なファンが集まるエリアを作成します。共に働き、より良い AI の世界を創造しましょう。プログレス、ナレッジ プラネット エントランス:「初心者からマスターまでの 3D ビジョン」

3D ビジョンのコア技術を学び、スキャンして表示し、3 日以内に無条件の返金を受けてください 0ae55980594bd01ad4c05a3a849d3211.jpeg
高品質のチュートリアル資料、質問への回答、問題の効率的な解決に役立ちます
3 番目のステップは、3D ビジョンを体系的に学習し、モジュール知識システムを深く理解して実行することです。

3D ビジョンの特定の分野 [理論、コードから実践まで] を体系的に学習したい場合は、3D ビジョン品質コース学習 Web サイトをお勧めします: www.3dcver.com

科学研究論文の執筆:

[1] 3D ビジョンに関する科学研究方法と学術論文執筆に関する中国初のチュートリアル

基礎課程:

[1]立体視アルゴリズムの重要なC++モジュールを基礎入門から応用まで徹底解説

[2] 3D ビジョンのための Linux 組み込みシステム チュートリアル [理論 + コード + 実践]

[3]カメラのモデルとキャリブレーションを学ぶにはどうすればよいですか? (コード+実戦)

[4] ROS2 の入門から習得まで: 理論と実践

[5] dToFレーダーシステム設計を徹底的に理解する[理論+コード+実践]

インダストリアル3Dビジョンディレクションコース:

[1] (第 2 回) ストラクチャード ライト 3D 再構築システムをゼロから構築する [理論 + ソース コード + 実践]

[2]ナニーレベルの線形構造光(単眼&双眼)3D再構成システムチュートリアル

【3】ロボットアーム掴み入門から実践編(理論+ソースコード)

[4] 3次元点群処理:アルゴリズムと実践概要

【5】Open3Dによる点群処理チュートリアルを徹底理解!

[6] 3D 視覚的欠陥検出チュートリアル: 理論と実践!

SLAMディレクションコース:

[1]ロボット分野における3DレーザーSLAM技術の原理、コード、実戦を徹底分析

[1]レーザー・ビジョン・IMU・GPS融合SLAMアルゴリズムを徹底解析:理論導出、コード解説、実戦

[2] (第2回)LOAMフレームワークによる3DレーザーSLAMを徹底理解:ソースコード解析からアルゴリズムの最適化まで

【3】視覚慣性SLAMを徹底理解:VINS-Fusionの原理とソースコード解析を徹底解説

[4]屋内外レーザーSLAMの主要アルゴリズムと実戦を徹底的に分析(地図製作者+LOAM+LIO-SAM)

[5] (第2回) ORB-SLAM3の理論解説とコード解析

視覚的な 3D 再構成

[1]パースペクティブ3D再構築を徹底:原理解析、コード解説、最適化改善

自動運転コース:

[1] 自動運転分野における車載センサーの空間同期(キャリブレーション)の徹底解析

[2] 中国初の自動運転目標検知分野におけるトランスフォーマーの原理と実践講座

[3]単眼の奥行き推定方法: アルゴリズムのレビューとコードの実装

【4】自動運転分野における3次元点群目標検出のフルスタック学習ルート!(シングルモーダル + マルチモーダル/データ + コード)

[5]ディープラーニングモデルを実際のプロジェクトに導入するにはどうすればよいですか? (分類 + 検出 + セグメンテーション)

やっと

1. 3Dビジュアル記事の執筆者募集

2. 3Dビジョン講座(自動運転、SLAM、産業用3Dビジョン)のメイン講師の募集

3.トップカンファレンスの論文共有と3Dビジョンセンサー業界のライブブロードキャストへの招待

おすすめ

転載: blog.csdn.net/Yong_Qi2015/article/details/133053627