クリックするとイベントの完全なレビューが表示されます: https://my.oschina.net/u/4489239/blog/11105657
クリックすると、5 月 18 日の深セン源創会議のプレビューにジャンプします: https://www.oschina.net/event/2332004
4月20日、第102回元荘会議が武漢で成功裡に開催された。今号では、武漢人工知能研究所、ファーウェイ、マインドスポア、JDクラウド、Gitee AIの人工知能専門家を招き、「大規模モデル競争と性能最適化」をテーマに講演を行っています。
現在、一部のモデル パーティまたはプラットフォームは、大規模モデル テクノロジを使用するためのコンピューティング パワーを個人ユーザーに無料で提供しています。Gitee.AI も、大規模モデル集約プラットフォームとして、個人ユーザーに無料でコンピューティング パワーを提供しています。 Gitee AI および清華大学ハイパフォーマンスコンピューティング研究所の専門コンサルタントである Lin Jiazhen 氏は、「大規模モデル サーバーレス推論システム」について基調講演を行いました。

Lin Jiazhen 氏は、Gitee.AI は現在 2,000 を超えるモデルを集約していますが、無料のコンピューティング リソースは限られているため、これらの無料のコンピューティング リソースを開発者にオンデマンドでより効率的に割り当てる必要があり、これは現時点では非常に困難であると指摘しました。問題。たとえば、以前は外部開発にコンテナー テクノロジーが使用されていましたが、単一コンテナーのスワップイン、スワップアウト、およびウェイクアップは非常に高速でした。しかし、大規模モデルの時代ではこれが困難になりました。 - モデルのアップとスリープにより、これまではコンテナのスワップインとスワップアウトの管理が困難でしたが、シーンも同様に効率的になります。
サーバーレス AI には、簡単な導入、すぐに使用できること、コンピューティング電力使用コストの削減、主流モデルのカバー、さまざまなコンピューティング ハードウェアのサポートなど、4 つの大きな利点があります。現在のモデル エンジン、またはコンピューティング パワーの購入と使用方法に問題があります。つまり、ユーザー プログラム、モデル、推論チップがすべてコンテナーに関連付けられており、ハードウェア チップを占有してコンピューティング パワー サービスを使用しています。サーバーレス推論エンジンは、コンピューティング能力リソースを統合して最適化し、複数レベルの非集約を通じてアプリケーション、モデル、コンピューティング能力間の結合を削減し、オンデマンドでコンピューティング能力を割り当て、リソース使用率を向上させます。
サーバーレス システム アーキテクチャは 3 つの層に分かれており、最下層はコンパイラ層であり、コンテナ内のモデルのロードはリモート サービスへの RPC 呼び出しのモードに変更されますが、インターフェースは変更されません。モデルとチップの解重合を実現するバックエンド推論。 rpc は、上位レベルの推論エンジンに与えられます。推論エンジンは、実際に計算が行われるクラスターであり、データと計算能力を非集約化します。たとえば、10 枚のカードが 3000 個のモデルのスケジュール要求を満たすタスク シナリオを想定します。このとき、大きなモデルを 1 枚のカードに固定的にロードする方法はありません。必要なモデルを一時的かつ動的にロードする必要があります。したがって、計算されたチップとモデルの重みは集約されず、モデルはコンピューティング パワー チップとモデルの集約をサポートできる異種メモリ システムである TanserGraph に配置されます。最上位層では、サーバーレス層、アプリケーション、推論、集計が実行されます。
サーバーレス システム アーキテクチャの中核となる機能は、モデルの重みの問題を解決する異種相互接続メモリです。データセンターのアーキテクチャ全体には、リソースの使用率が低く、ハードウェアのスケーラビリティが制限されているなど、いくつかの制限があります。分散テクノロジでは、アーキテクチャ全体の各コンポーネントを物理的に分離し、特定の相互接続を使用して各コンポーネントの制御インターフェイス (コントロール プレーン) をリンクできます。各種リソースのオンデマンド割り当て・拡張を実現するインターフェース(Data Plane)。さらに、メモリのデアグリゲーションには、クラウド環境のリソース使用率の向上や増大するメモリ リソースの需要への対応が容易になるなど、クラウド シナリオにおけるアプリケーション上の利点もあります。
しかし、既存の階層メモリ システムは、デアグリゲーション アーキテクチャの下での高いハードウェアの柔軟性には適しておらず、システムの拡張性も制限されています。さらに、システムの内部構造の制限により、既存のメモリ管理インターフェイスの機能も制限されています。異種相互接続メモリは、ハードウェア アクセス統計、プログラム可能な戦略、ページ移行という 3 つのリンクを通じてこれらの問題を解決できます。 CPU を例に挙げると、PEB に基づくアクセス統計に関して、ハードウェアは実行中のプログラムのメモリ アクセス ステータスを収集し、命令、TID、宛先アドレスなどを記録し、オンデマンドでモデルの重みをロードすることがサポートされています。
さらに、サーバーレス システム アーキテクチャには、MLIR に基づくマルチレベル ニューラル ネットワーク コンパイル最適化テクノロジや、ユーザー空間分離テクノロジに基づく軽量システム サービス メカニズムなど、他のさまざまな機能もあります。サーバーレス推論エンジンは、2 つのコア知的財産テクノロジーに基づいて構築されており、現在主流のさまざまな推論システム最適化テクノロジーも統合されています。
現在、Llama 3 は Gitee AI 上で起動されています。以下のリンクをブラウザにコピーし、プラットフォームに入って体験してください (招待コード: llama3):
https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B- Chinese-Chat
QRコードをスキャンすると講義「大規模モデルサーバーレス推論システム」のリプレイを視聴できます⬇️

{{名前}}
{{名前}}