論文エッセイ | Shengsi に基づくストリーミング シナリオにおけるナレッジ グラフ表現の学習フレームワーク

著者:李瑞峰

論文タイトル

StreamE: ストリーミング シナリオにおける時間的ナレッジ グラフの表現の軽量更新

給紙元

カウ2023

ペーパーリンク

https://dl.acm.org/doi/10.1145/3539618.3591772

コードリンク

https://github.com/zjs123/StreamE_MindSpore

オープンソースの AI フレームワークとして、MindSpore は、産学、研究、開発者に、フルシナリオのデバイス、エッジ、クラウドのコラボレーション、ミニマリスト開発、究極のパフォーマンス、超大規模 AI 事前トレーニング、ミニマリスト開発、安全で信頼できるシステムを提供します。 MindSpore のダウンロード数は 500 万を超え、トップ 100 以上の大学で教鞭を執り、多数の開発者が利用しています。 AI コンピューティング、金融、インテリジェント製造、金融、クラウド、ワイヤレス、データ通信、エネルギー、コンシューマー 1+8+N、スマート カー、その他のエンドエッジ クラウド カーのシナリオが徐々に広く使用されています。は、Gitee インデックスが最も高いオープンソース ソフトウェアです。誰もがオープンソースのコントリビューション、キット、モデルクラウドインテリジェンス、業界の革新とアプリケーション、アルゴリズムの革新、学術協力、AI書籍の協力などに参加することができ、クラウド側、デバイス側、エッジ側、およびアプリケーションケースを貢献することができます。セキュリティフィールド。

科学技術コミュニティ、学界、産業界からの SunSilicon MindSpore の広範なサポートにより、2023 年には SunSilicon MindSpore に基づく AI 論文が全 AI フレームワークの 7% を占め、2 年連続で世界第 2 位にランクされました。CAAI および CAAI に感謝します。全大学、先生方のご支援を得て、今後もAIの研究とイノベーションに全力で取り組んでまいります。 MindSpore コミュニティは、主要な会議論文の研究をサポートし、オリジナルの AI 結果を構築し続けています。私は時々、優れた論文を選択して解釈していきますが、産業界、学界、研究者のより多くの専門家が独自の AI 研究を推進するために Shengsi MindSpore と協力してくれることを願っています。 MindSpore AI トップ カンファレンス論文シリーズの 15 番目の記事では、中国電子科学技術大学のコンピュータ サイエンス学部の Shao Jie 先生のチームからの論文を解釈したいと思います。すべての専門家、教授、クラスメートの貢献に感謝します。この記事は Zhihu にアップロードされています。クリックして原文を読み、表示します。

MindSpore は、開発の容易さ、効率的な実行、シナリオの完全なカバーという 3 つの主要な目標を達成することを目指しています。使用経験を通じて、深層学習フレームワークである MindSpore は急速に発展しており、そのさまざまな API の設計は、より合理的で完全かつ強力な方向に常に最適化されています。さらに、Shengsi から常に登場しているさまざまな開発ツールも、モデル アーキテクチャを図の形式で表示し、さまざまな側面を動的に監視できる MindSpore Insight など、より便利で強力な開発手法を作成するためにこのエコシステムを支援しています。実行時のモデルの変更により、開発プロセスがより便利になります。

01

研究の背景

時間知識グラフ埋め込み方法は、時間知識グラフの時間性の保持に基づいて、時間知識グラフ内の要素のベクトル表現を学習することを目的としています。既存の研究では時間的知識グラフを低次元ベクトルとして表すことができますが、これらの研究では時間的知識グラフに新しい知識が追加されないことを前提としていますが、これは明らかに不合理です。現実世界の知識は常に更新されるため、ナレッジグラフには新しい知識が追加され続けます。このシナリオをフローシナリオと呼びます。既存の作業をストリーミング シナリオに適用すると、主に次の 3 つの問題に直面します。

(1) まず、知識が更新されると、新しいエンティティがナレッジ グラフに蓄積され続けます。既存の作業では、各エンティティの固定された埋め込み表現を直接学習するため、新しいエンティティの埋め込み表現を生成できません。

(2) 現実世界ではさまざまな出来事が常に発生するため、知識の更新が非常に頻繁に行われ、既存の作業ではその瞬間の埋め込み表現をゼロから再生成する必要があり、現実に適用することが困難です。 -危機早期警報システムなど、迅速な対応が必要な生活分野。

(3) 既存の研究では、関連するナレッジ タイムスタンプを持つエンティティ埋め込み表現のみを取得できます。ただし、現実世界の要件はいつでも生成され、既存の作業は次の知識更新が発生するまで常に同じ埋め込み表現を返すため、この期間中にモデルが同じ応答を行うことになりますが、これは明らかに正しくありません。

したがって、既存の作品はある程度の成功を収めていますが、現実世界では非常に一般的なストリーミング シナリオ (推奨システム、危機警告システムなど) には適用できません。

02

チーム紹介

この論文の筆頭著者であるZhang Jiasheng は、中国電子科学技術大学コンピュータ サイエンス学部の博士課程 2 年生であり、動的グラフ表現学習、逐次知識グラフ、時空間データ マイニングなどに研究の関心を持っています。 。これまでに、CCF カテゴリ A の会議論文 2 件、CCF カテゴリー B および C の会議論文 1 件、中国科学院の第 1 地域の雑誌論文 1 件を含む、合計 5 件の論文が発表されました。国内発明特許と 2 件のソフトウェア著作権。四川省科学技術局イノベーション・起業家精神育成プロジェクトの主要プロジェクト「逐次知識に導かれたナレッジグラフ表現学習モデルの研究と応用」の完了を主宰し、DiDi-Futureに選出されたエリート学校と企業の共同人材育成プロジェクト。彼は中国電子科学技術大学から多くの学術奨学金を獲得し、「優秀な大学院生」および「科学技術イノベーションにおける高度個人」の称号を獲得しています。

論文指導教員のShao Jie は、中国電子科学技術大学の教授兼博士指導者であり、100 以上のハイレベルな学術論文を発表しています (IEEE TKDE、IEEE TNNLS、IEEE TCYB、IEEE TMM、IEEE TGRS、IEEE を含む)。 THMS、IEEE TCSVT、ACM TOIS、および TOMM などの ACM ジャーナル、および ACM MM、IEEE ICDE、VLDB、IJCAI、AAAI などの会議。中国国家自然科学財団の 2 つの一般プロジェクトと四川省の 1 つの主要研究開発プロジェクトを主宰し、協力部門の責任者として中国国家自然科学財団の 1 つの主要プロジェクトを引き受けました。また、APWeb の推薦者も務めました。 - WAIM 2019、中国コンピュータ協会プログラム委員長が推薦するビッグデータ分野の国際会議。 2021年四川省科学技術進歩賞の二等賞を受賞しました。

この論文の著者が所属する中国電子科学技術大学のフューチャーメディア研究センターは、マルチモーダルナレッジグラフ、時間的ナレッジグラフ、ナレッジグラフの構築、推論、およびナレッジグラフの構築に関する特定の研究を実施しました。応用。関連する州、省庁、国のプロジェクトが多数研究中です。

03

論文の紹介

写真

本稿では、従来の時間知識グラフ埋め込み手法がストリーミングシナリオに適用できないという問題を解決するために、軽量埋め込み表現フレームワーク(StreamE)を提案します。既存の作品がストリーミング シナリオに適応することが難しい主な理由は、埋め込み生成プロセスと予測プロセスが高度に結合しているため、いつでも効率的に埋め込み表現を生成することが困難であるためであると考えられます。したがって、上記の 2 つのプロセスを分離することで、ストリーミング シナリオでの埋め込み表現の軽量更新を実現します。

具体的には、エンティティ埋め込み表現を外部ストレージ モジュールとして使用して履歴セマンティクスを保存し、埋め込み表現を生成するプロセスを更新関数と読み取り関数に分離します。 update 関数では、フレームワークは受信ナレッジをリッスンし、受信ナレッジに基づいて保存された埋め込み表現を段階的に更新します。読み取り関数では、フレームワークはユーザーのクエリのニーズをリッスンし、受信ナレッジに基づいて保存された埋め込み表現を更新します。軌跡予測は、クエリ要件に応答するためにクエリ時に埋め込み表現を生成するために使用されます。

エンティティ表現を正確に更新するために、新しい知識の参加エンティティ間の直接的な影響と、過去の関連知識に関与するエンティティに対する新しい知識の伝播の影響の両方を考慮します。メッセージパッシングメカニズムに触発された直接的な影響については、知識を生成するエンティティも相互に情報を拡散すると考えられます。同時に、リレーションシップのセマンティクスはエンティティ間の相関関係を反映するため、エンティティとリレーションシップをさまざまな用途に使用したいと考えています。同時に、直接効果をモデル化するためのメッセージ受け渡しメカニズム。伝播効果については、パスはエンティティ間の高次の相関をモデル化するために広く使用されているため、新しい知識と過去の関連エンティティで構成されるパスはそれらの間の相関を反映できると考えられます。したがって、パスに基づいて伝播効果をモデル化します。最後に、ゲーティング メカニズムは更新する情報を適応的に選択できるため、これを使用して直接影響および伝播影響にある情報を適応的に選択し、エンティティの埋め込み表現を更新します。

エンティティ セマンティクスの進化の軌跡を正確にシミュレートするために、2 つの側面を考慮しました。まず、ほとんどのエンティティのセマンティクスには周期的な特性があります。たとえば、オリンピックは 4 年ごとに開催され、ヨーロッパ カップは 2 年ごとに開催されます。エンティティの周期的なセマンティクスの変化を考慮すると、その中で発生する可能性のある知識をより適切に予測できます。未来。第 2 に、エンティティはエンティティ コレクション全体のエンティティの一部とのみ知識を生成し、これらのエンティティには当然ながら強い相関関係があることがわかりました。この相関関係を維持するには、エンティティの将来の意味論的軌道は、関連するエンティティの意味論的変化に適応する必要があります。

04

実験結果

以下の図に示すように、Shengsi MindSpore に基づいて実装された StreamE フレームワークの有効性を、4 つのベンチマーク データセットに対する帰納的将来リンク予測タスクで検証しました。より性能を高めたモデルです。

写真

同時に、既存のモデルと比較して、埋め込み表現の生成効率における提案フレームワークの利点を検証しました。以下の図に示すように、私たちのフレームワークはクエリ数が増加しても消費時間の準線形的な増加を維持でき、既存のモデルよりも大幅に効率的です。

写真

05

概要と展望

この記事では、ストリーミング シナリオにおける時間知識グラフの技術的課題を初めて研究し、ストリーミング シナリオにおける埋め込み表現を更新するための軽量フレームワーク StreamE を提案します。私たちは Shengsi MindSpore フレームワークを使用して StreamE フレームワークを実装し、広範な実験を通じて効率と精度におけるその利点を証明しました。 MindSpore は、国産の深層学習フレームワークとして非常に便利な演算子を多数提供しており、フレームワークの実装プロセスを大幅に簡素化すると同時に、推論効率においても大きな利点を示します。 Shengsi MindSpore コミュニティは非常に活発で、他のユーザーや Huawei 開発者からの提案は、このフレームワークの実装に大いに役立ちました。このような活発で専門的なコミュニティの指導の下で、Shengsi MindSpore はますます完璧なものになると信じています。

1990 年代生まれのプログラマーがビデオ移植ソフトウェアを開発し、1 年足らずで 700 万以上の利益を上げました。結末は非常に罰的でした。 Google は、Flutter、Dart、Python チームの中国人プログラマーの「35 歳の呪い」に関係する人員削減を認めた 。Microsoft 無力な中年者にとっては幸運なおもちゃでもある。強力で GPT-4.5 の疑いがある; Tongyi Qianwen オープンソース 8 モデルWindows 1.0 が 3 か月以内に正式に GA Windows 10 の市場シェアは 70% に達し、Windows 11 GitHub がAI ネイティブ開発ツール GitHub Copilot Workspace JAVAをリリースOLTP+OLAP を処理できる唯一の強力なクエリです。これが最高の ORM です。
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4736317/blog/11082896