純粋に視覚的な自動運転ソリューションというと、誰もが最初に思い浮かべるのは Tesla です。実際、テスラは 2021 年の時点で、純粋に視覚的な BEV 検出ソリューションを実装しており、その効果は非常に良好です。
注意深い学生は、画像をカメラ空間から BEV 空間に変換するこの BEV ソリューションの中心コンポーネントがトランスフォーマーであることに気づいたかもしれません。
Transformer は自然言語処理の分野に由来し、最初に機械翻訳に適用されました。その後、これがコンピュータ ビジョンの分野でも非常に効果的であることが誰もが発見し、主要なランキングで CNN ネットワークを圧倒しました。
ターゲット検出の分野では、Visual Transformer は 2D 検出、3D 検出だけでなく、マルチモーダル検出も実現でき、BEV の観点からの検出パフォーマンスも非常に優れています。
そのため、企業がアルゴリズムエンジニアを採用する際には、Transformer 関連の知識とエンジニアリングの基礎を習得することがスキル要件となっており、履歴書でも大きな加点となります。
ただし、 Transformer ベースのターゲット検出アルゴリズムを習得するには、次の 3 つの困難があります。
セルフアテンション メカニズム (セルフ アテンション)、位置埋め込み (位置埋め込み)、オブジェクト クエリなど、Transformer の背後にある理論的基礎を理解します。インターネット上の情報は比較的乱雑で十分に体系化されていないため、 -独学で理解を深め、統合します。
Transformer ベースのターゲット検出アルゴリズムのアイデアと革新をマスターします。Transformer の論文の中には、多くの新しい概念が含まれており、言語が理解するのがそれほど簡単ではありません。論文を読んでも、アルゴリズムの詳細はまだ理解できません。
Transformer のコードは動作メカニズムが CNN とは大きく異なるため、理解するのが容易ではありません。そのため、コードを完全に理解して実際に適用するには多大な労力がかかります。
では、Tansformer に基づいたターゲット検出アルゴリズムを学習するにはどうすればよいでしょうか?
3D ビジョン ワークショップの共同講師「Yu Yan」は、主に学生が上記の問題を解決できるように、全員のために「ターゲット検出におけるビジュアル トランスフォーマー」コースを注意深く準備しました。
Visual Transformer の基礎知識、さまざまな古典的な Transformer ベースのターゲット検出アルゴリズムを詳細に説明するだけでなく、コード解釈と実践的なコースも提供するため、誰もがこれらの知識理論を真に学び、適用し、理解し、習得できます。
実践編
授業開始時間
2023年7月28日(金)20時、毎週1話ずつ更新されます。
コースQ&A
このコースに関する質問と回答は、主にこのコースに対応する Goose Circle で行われ、学習中に質問があればいつでも Goose Circle で質問することができます。