**著者:** 李瑞峰
論文タイトル
等角基底ベクトル
給紙元
CVPR 2023
ペーパーリンク
https://arxiv.org/abs/2303.11637
コードリンク
https://github.com/msfuxian/EBV
オープンソースの AI フレームワークとして、MindSpore は、産学、研究、開発者に、フルシナリオのデバイス、エッジ、クラウドのコラボレーション、ミニマリスト開発、究極のパフォーマンス、超大規模 AI 事前トレーニング、ミニマリスト開発、安全で信頼できるシステムを提供します。経験、2020.3. 28 オープンソースは 500 万以上のダウンロードがあり、数百以上の AI のトップカンファレンスの論文をサポートしており、トップ 100 以上の大学で教育されており、HMS を通じて 5000 以上のアプリで商用利用できます。 AI コンピューティング センター、金融、スマート製造、金融、クラウド、ワイヤレス、データ通信、エネルギー、消費者向け 1+8+N、スマート カー、その他のエンドエッジ クラウド カーのシナリオが徐々に広がっています。が使用されており、Gitee インデックスが最も高いオープンソース ソフトウェアです。誰もがオープンソースのコントリビューション、キット、モデルクラウドインテリジェンス、業界の革新とアプリケーション、アルゴリズムの革新、学術協力、AI書籍の協力などに参加することができ、クラウド側、デバイス側、エッジ側、およびアプリケーションケースを貢献することができます。セキュリティフィールド。
科学技術コミュニティ、学界、産業界からの SunSilicon MindSpore の広範なサポートにより、2023 年には SunSilicon MindSpore に基づく AI 論文が全 AI フレームワークの 7% を占め、2 年連続で世界第 2 位にランクされました。CAAI および CAAI に感謝します。全大学、先生方のご支援を得て、今後もAIの研究とイノベーションに全力で取り組んでまいります。 MindSpore コミュニティは、主要な会議論文の研究をサポートし、オリジナルの AI 結果を構築し続けています。私は時々、優れた論文を選択して解釈していきます。産業界、学界、研究者のより多くの専門家がオリジナルの AI 研究を推進するために MindSpore と協力することを願っています。Shengsi MindSpore コミュニティは今後も AI イノベーションと AI アプリケーションをサポートしていきます。 Shengsi MindSpore から AI カンファレンス論文シリーズの 17 番目の記事として、南京科技大学コンピュータ工学部のWei Xiushen 博士のチームの論文を取り上げたいと思います。すべての専門家、教授、クラスメートの貢献に感謝します。
MindSpore は、開発の容易さ、効率的な実行、シナリオの完全なカバーという 3 つの主要な目標を達成することを目指しています。使用経験を通じて、深層学習フレームワークである MindSpore は急速に発展しており、そのさまざまな API の設計は、より合理的で完全かつ強力な方向に常に最適化されています。さらに、Shengsi から常に登場しているさまざまな開発ツールも、モデル アーキテクチャを図の形式で表示し、さまざまな側面を動的に監視できる MindSpore Insight など、より便利で強力な開発手法を作成するためにこのエコシステムを支援しています。実行時のモデルの変更により、開発プロセスがより便利になります。
この記事で研究したい問題は、10 万カテゴリや 100 万カテゴリの分類問題など、大きなカテゴリの分類問題です。 ResNet-50 のようなネットワークの場合、このような分類問題を処理する最後の線形層には 2048×100000 または 2048×1000000 のパラメータ量が必要であり、これにより fc は前の特徴抽出層のパラメータ量より大きくなります。
一方、一般的な分類問題ではラベルとしてワンホット ベクトルが選択されます。これは、任意の 2 つのベクトル間の角度が 90 度である直交基底として理解できます。 2021 年末、Annual Journal of Mathematics に、次元 D が無限大になる傾向がある場合、特定の角度に対して、上記の等しい角度を持つ直線の数は D に線形関係があるという記事がありました (固定角度の等角線を参照)。
したがって、角度が完全に等しい場合、カテゴリーの数は多くなり、D も大きくなければなりません。したがって、この記事の冒頭のアイデアは、角度をいくつか最適化することです。角度が 83 ~ 97 度 (軸対称) にほぼ制限されている場合、5000 次元で 100,000 のカテゴリの基礎を収容でき、同時にそれも可能になります。分類のパフォーマンスには大きな影響を与えませんが、大きな影響があり、対応するデータセットもオープンソース化されています。さらに、角度が 0 の場合、そのような基底ベクトルは空間内に無数に存在するため、それは真実であるはずですが、α、空間次元、およびそのようなベクトルの数に対する固定的な数学的解はありません。一部の特殊な場合にのみ発生します。答えについては、書籍『スパース表現と冗長表現 – 信号および画像処理の理論から応用まで』を参照してください。分類タスクのコード部分はMindSporeの公式ドキュメントに記載されている例に準拠しており、データセットを変更するだけで完了するので非常に便利です。
01
研究の背景
パターン分類の分野は、入力信号を 2 つ以上のカテゴリに割り当てることを目的としています。近年、深層学習モデルは、画像、ビデオ、オーディオ、テキスト、その他のデータの処理に画期的な進歩をもたらしました。ハードウェアの急速な改善のおかげで、今日の深層学習手法は 100 万枚の画像を簡単に適合させることができ、パターン分類タスクにおける手作りの特徴品質の低さという以前のハードルを克服できます。深層学習ベースの手法が多数登場し、リモート センシング、少数ショット学習、ロングテール問題など、さまざまなシナリオや設定で分類問題を解決するために使用されています。
図 1 は、いくつかの典型的な分類タスクのパラダイムを示しています。現在、多くの深層学習手法では、分類器としてソフトマックスと組み合わせたトレーニング可能な全結合層が使用されています。しかし、カテゴリの数が固定されているため、このような分類器はスケーラビリティに乏しく、カテゴリの数が増えると、学習可能な分類器のパラメータの数も増加します。たとえば、全結合層のメモリ消費量はカテゴリ N の数が増加するにつれて直線的に増加し、全結合層と d 次元特徴間の行列乗算の計算コストも増加します。古典的な計量学習に基づく一部の手法では、すべてのトレーニング サンプルを考慮して正/負のサンプル ペアを設計し、その後カテゴリごとにクラス センターを最適化する必要があります。これには、大規模なデータ セット、特にトレーニング前のタスクに対して多くの追加計算が必要です。 。
図 1 典型的な分類パラダイムと EBV の比較
1. k-way 全結合層とソフトマックスで終わる分類器。カテゴリが追加されるにつれて、分類器のトレーニング可能なパラメータは直線的に増加します。
2. 古典的な計量学習方法の例として「トリプレット埋め込み」を取り上げます。M 個の画像が与えられた場合、その複雑さは です。サンプルを含む新しいカテゴリが追加されると
、複雑さは に増加します
。
3. 私たちが提案する EBV。 EBV は、さまざまなカテゴリの固定正規化埋め込みを事前定義します。ネットワークのトレーニング可能なパラメーターはカテゴリの数が増加しても変化しませんが、計算の複雑さはから に増加するだけです
。
02
チーム紹介
魏秀シェ教授が率いる視覚知能と知覚(VIP)グループ。このチームは、IEEE TPAMI、IEEE TIP、IEEE TNNLS、IEEE TKDE、Machine Learning Journal、「中国科学:情報科学」などの関連分野のトップ国際ジャーナルや、NeurIPS、CVPR、 ICCV、ECCV、IJCAI、AAAI など。彼は 50 以上の論文を発表しており、関連研究は、DIGIX 2023、SnakeCLEF 2022、iWildCam 2020、 iNaturalist 2019、および見かけの性格分析 2016。
03
論文の紹介
この論文では、ディープ ニューラル ネットワーク分類タスクで一般的に使用される分類器を置き換える等角ベクトル ベース (EBV) を提案します。 EBV は、すべてのカテゴリに対して固定の正規化された基底ベクトルを事前に定義します。これらの基底ベクトル間の角度は同じであり、可能な限り相互に直交するように制約されます。具体的には、d 次元の単位超球において、分類タスクのカテゴリごとに、EBV は超球の表面上の d 次元の正規化された埋め込みを定義します。これらの埋め込みを基底ベクトルと呼びます。各基底ベクトルのペアの球面距離は、任意の 2 つの基底ベクトル間の関係を可能な限り直交に近づけ、同様の角度にする定義されたルールを満たします。カテゴリの数が増加してもディープ ニューラル ネットワークのトレーニング可能なパラメーターを一定に保つために、タムズ問題と等角線の 2 つの数学的問題に基づいて EBV の定義を提供します。
まず、EBV の具体的な定義を示します。 d 個の直交ベクトル基底が d 次元ユークリッド空間を構築できることがわかっています。同時に、2 つのベクトルが直交関係にある場合、数学では 2 つのベクトルには相関関係がないと考えられます。ただし、このような d 次元空間は、最大 d ベクトル基底、つまり、収容できるカテゴリの数まで収容でき
、大規模な分類のためのメモリ空間を削減するという要件を満たすことができません。したがって、異なるベクトル基底間の角度関係を最適化する必要があります。単位超球 において
、
任意の 2 つのベクトル基底の角度範囲を として定義すると仮定します
。与えられたカテゴリ数量 N について、
条件を満たす最小値を見つけるか、許容可能な値について
、
空間内のカテゴリ数量 N の値の範囲を見つけます。これにより、EBV の定義が完了します。その数式は、条件を満たす等しい角度を持つベクトルの基本セットを見つけて
次を満たすように要約できます。
それらのうち、とは、 、、
を意味し、ユークリッド標準を表します。次に、それが単位球面距離の計量関数であると仮定すると、クエリ対象の特徴ベクトルについて、そのベクトル ベースとの相関は次のように表すことができます。
このうち、 はベクトル基底集合内の N 個の基底ベクトルを表します。次に、同様に、計算されるすべての基底ベクトルの添字を表します。
次に、EBV の生成方法を示します。等角ベクトル基底セットを表す行列をランダムに初期化します
。ここで、 d は各基底ベクトルの次元を表し、 N は必要な基底ベクトルの数を表します。次に、
の各 d 次元基底ベクトルを正規化して、の任意
の 2 つの基底ベクトルの和をと、、
として
表現できるようにします。 このようにして、と の球面距離は、として表されるコサイン類似度で置き換えることができます。確率的勾配降下のプロセスでは、満足する基底ベクトルのペアの勾配が勾配クリッピングによってカットされ、残りの基底ベクトルのペアが同時に最適化されます。全体の最適化関数は次のように表現できます。
つまり、 の場合、対応する勾配は切り捨てられ、最適化は実行されなくなります。
最後に、分類タスクで使用される場合の EBV の最適化方法を示します。 N カテゴリに合計のデータ サンプルが含まれており、それらに対応するラベルが であると仮定します
。
はデータを表し、
は対応するラベルを表します。
対応する特徴ベクトルは次のように表すことができます
。 ここで、 は
特徴抽出器を表し、これは通常、最適化されるディープ ニューラル ネットワークとして理解でき、
最適化される特徴抽出器のパラメータを表します。したがって、データ
に対応する特徴ベクトルが
カテゴリとして推定される確率は
次のように表すことができます。
このうち、 はJ 番目のカテゴリの重み
の転置を表します。 EBV の生成プロセスでは、セット
内の各基底ベクトルが
正規化され
、式 (4) のカテゴリ重みに置き換えられ、
最終的に EBV を達成する目的関数が得られます。
このうち、 は、対応する特徴ベクトルの正則化を表します。これは、最適化の難易度を下げるために使用されるハイパーパラメーターです。次に、最適化目標は最終的に結合分布確率の最大化に変換されます。 ここで、 は、特徴抽出器によって取得された特徴ベクトルがカテゴリであるとみなされる確率を表す接続関数です。その後、最適化目標は、負の対数尤度は次のように機能します。
04
実験結果
ImageNet-1K データセットの分類タスク、MS COCO データセットのインスタンス セグメンテーションとターゲット検出タスク、ADE20K データセットのセマンティック セグメンテーション、および多数の下流分類タスクについて比較実験を行いました。ここでは、ImageNet-The のみを使用します。この方法の有効性を説明するために、1K での分類結果を例として取り上げます。提案された EBV の有効性を証明するために、ベースライン比較方法では、TorchVision が提供する最先端のトレーニング方法を参照します。 3 つの異なるトレーニング設定を提供しています。
1. 元の ResNet テキストのトレーニング設定を表すように A0 を設定します。
2. A1 を設定するということは、重み減衰や TrivialAugment などの強化戦略を使用しながら、コサイン減衰学習率スケジューラーを使用し、ウォームアップ トレーニング戦略を採用することを意味します。
3. A2 を設定するとは、A1 をベースに 1abel-smoothing、cutmix、mixup の 3 つの戦略を追加することを意味します。
表 1 に示すように、実験結果は、EBV が同じ実験設定の下で従来の分類器よりも大幅に改善されたことを示しています。
表 1 ImageNet-1K 検証セットの比較結果
05
概要と展望
この論文では、分類タスクの新しいパラダイムである等角ベクトル基底 (EBV) を提案します。ディープ ニューラル ネットワークでは、モデルは通常、ソフトマックスを使用した k-way 全結合層を使用して分類タスクを処理します。これらの手法の学習目標は、学習された特徴表現をサンプルのラベル空間にマッピングすることとして要約できます。計量学習方法では、学習目標は、トレーニング データ ポイントを元の空間から新しい空間にマッピングし、空間内の同じ種類のサンプル ポイントを近づけ、異なるサンプル ポイント間の距離を近づけるマッピング関数を学習することとして要約できます。ポイントの種類がさらに遠くなります。上記の方法とは異なり、EBV はすべてのカテゴリに対して固定の正規化された基底ベクトルを事前に定義します。事前定義プロセスでは、これらの基底ベクトル間の角度は同じであり、可能な限り互いに直交するように制約されます。トレーニング段階では、これらの基底ベクトルは、さまざまなカテゴリのサンプルの固定マッピング ターゲットとして直接機能し、EBV の学習目標も、画像特徴の埋め込みと事前定義された基底ベクトルの間の球面距離を最小化するように変更されます。検証フェーズでは、各カテゴリが固定の基底ベクトルにバインドされているため、画像のラベルは、画像の特徴埋め込みとすべての基底ベクトルの間の球面距離の最小値によって判断できます。分類問題なので、MindSpore の公式サンプルコードに従って非常に早く学習を完了できます。
1990 年代生まれのプログラマーがビデオ移植ソフトウェアを開発し、1 年足らずで 700 万以上の利益を上げました。結末は非常に罰的でした。 Google は、Flutter、Dart、Python チームの中国人プログラマーの「35 歳の呪い」に関係する人員削減を認めた 。Microsoft は 、 無力な中年者にとっては幸運なおもちゃでもある。強力で GPT-4.5 の疑いがある; Tongyi Qianwen オープンソース 8 モデルWindows 1.0 が 3 か月以内に正式に GA Windows 10 の市場シェアは 70% に達し、Windows 11 GitHub がAI ネイティブ開発ツール GitHub Copilot Workspace JAVAをリリースOLTP+OLAP を処理できる唯一の強力なクエリです。これが最高の ORM です。