深層学習モデルに基づく従来のDFTモデルとDeepE3モデルの置き換えの分析レビュー

著者:ユー・ファン

背景

ディープラーニングは近年、計算量子化学の分野で大幅な進歩を遂げており、今日のコンピューティング能力の継続的な向上に伴い、既存のディープラーニング手法は、その効率性と表現力の高さを証明しています。ディープラーニングと第一原理は、物理学の基本法則から始まり、量子場、特に DFT の分野で値を予測するために原子と電子のスケールで結合されます。 DeepE3 や QhNet などの学習モデルが誕生しました。これらのネットワークは、DFT ハミルトニアンを予測するための等変ネットワークに基づいています。この記事では、密度汎関数理論 (DFT) の起源、等変ニューラル ネットワークの原理、およびより一般的な等変ニューラル ネットワーク E3nn について紹介します。最後に、E3 と E3 に基づいて清華大学のチームによって提案されたモデルである DeepHE3 モデルの概要を説明します。その他、DFT ハミルトニアンを予測するためにネットワークを変更するモデル。

**1. **密度汎関数理論

密度汎関数理論 (DFT) は、多電子系の電子構造を研究する量子力学的手法であり、多電子系は電子の密度汎関数で表されます。密度汎関数理論は物理学や化学で、特に分子や凝縮物質の性質を研究するために広く使用されています。

密度汎関数理論が登場する前は、システムの波動関数はシュレーディンガー方程式を解くことによって計算されていました。量子力学の基本方程式として、シュレディンガー方程式は次の形式になります。

写真

式 1. 時間依存のシュレーディンガー方程式

写真

式 2. 時間のないシュレーディンガー方程式

ここで、Ψ は微視的な粒子の状態を記述する波動関数、E は運動エネルギー、H はハミルトニアンであり、量子系の進化を記述し、粒子の運動エネルギーと位置エネルギーの合計として表すことができます。 。

N 個の電子と M 個の原子で構成される多粒子系の場合、ハミルトニアンに対応する定常シュレーディンガー方程式は一般に次のように記述できます。

写真

式 3. シュレディンガー方程式

この波動関数には 3*(M + N) 個の変数があるため、解くのは非常に困難です。

密度汎関数理論は、波動関数を電子密度に置き換えます。これは、電子の密度を通じて多電子系の電子構造を研究する方法です。このうち、密度は電子の密度を表す三次元座標の関数であり、関数関数は密度をエネルギーEにマッピングする関数を指します。 DFT は電子密度を基本量として取り、エネルギーを電子密度の関数として表現します。電子密度は空間座標の関数にすぎないため、多電子系の次元は直接 3 に削減され、シュレディンガー方程式の解法プロセスが単純化されます。

1965 年、カリフォルニア大学サンディエゴ校のウォルター・コーエンとシェン・ルージウは、コーン・シャム方程式を提案しました。密度汎関数理論の最も一般的な代表として、KS 方程式は相互作用する多粒子系を非相互作用する単一粒子系に変換し、電子間の相互作用を未知の交換相関ポテンシャルに帰します。

写真

式 4. KS 式[4]

交換相関ポテンシャルの項は、相互作用する多粒子系と非相互作用する多粒子系の間のエネルギー差を指します。そして、このエネルギー項の正確な関数形式は不明であり、局所密度近似 (LDA) などの電子密度の近似関数としてのみ表現できます。電子密度は上記の単一電子波動関数方程式の解によって決定されるため、この方程式の具体的な形式はその解そのものに依存し、自己無撞着な反復によって解く必要があります。

写真

図 1. 概算の計算プロセス[4]

その計算複雑さは O(N^3) (N は電子の数) であり、大規模なシステムを解くことは依然として困難です。

**2、**等価ネットワーク

ニューラル ネットワークを使用して一部の量子特性を計算する場合、通常、粒子の回転によるこれらの特性の変換を考慮する必要があります。エネルギー値、粒子間の距離などの一部のスカラー値は、粒子の回転の影響を受けません。力やハミルトニアンなどの一部の多次元ベクトル特性の場合、粒子の回転に応じて値を変更する必要があり、この変更はネットワークの最初から最後まで一貫している必要があります。 。したがって、ほとんどの第一原理モデルには等変ネットワークが使用されます。

2.1 等分散とは何ですか?

関数を例に挙げます。入力に適用した変換が出力にも反映される場合、その関数は等変です。 f(g(x)) = g(f(x))。

2.2 等辺ネットワークとは何ですか?

(1) ネットワーク入力の変換は、内部結果と出力結果に対称的にマッピングされる必要があります。

(2) たとえば、3 次元の原子構造がある場合、位置エネルギー、電子の数、力の方向など、そのさまざまな特性を予測するためにニューラル ネットワークを使用する必要があります。原子構造を回転させた場合、その位置エネルギーと電子の数はスカラーであるため同じままであるはずであり、それらは多次元ベクトルであるため、力の方向の結果もそれに応じて変化するはずです。この対称的なマッピングは、ネットワークの中間結果と結果に反映される必要があります。したがって、このマッピング関係を保証するには、等変ネットワークが必要です。

2.3 なぜ等分散性を達成する必要があるのでしょうか?

動物の写真などの 2 次元画像の場合、モデルを対称にするために、通常、動物の写真を 10 の異なる角度で回転させてニューラル ネットワークに入力し、ネットワークを異なる方法でトレーニングします。 . アングルの写真。しかし、原子構造などの 3 次元モデルの場合、この種の拡張は現実的ではありません。通常、単純な 3 次元モデルをデータで拡張するには、少なくとも 500 回転のデータ拡張が必要です。さまざまな角度の特性で原子構造を適切にカバーします。等変ネットワークを使用する場合は、構造体を渡すだけで済みます。

写真

図 2. 2 次元の動物画像

写真

図 3. 3 次元モデル図[5]

**3、** E3nn: 3 次元ユークリッド空間に基づく空間変換ニューラル ネットワーク

E3: 平行移動、回転 (SO(3) 特殊直交群)、反転に分解できる 3 次元ユークリッド空間の空間変換群。平行移動の等変性は畳み込みですでに満たされているため、回転と反転に焦点を当てます。 -> SO(3)×Z2=O(3)

E3NN の主な概念:

1. グループ: 回転や反転などの空間の変換タイプ。

2. 表現: ベクトル空間がどの空間変換グループ (Group) に属するかの表現を定義します。

3. 既約表現 (irreps): 既約表現は既約表現と同等です。各 irreps は (l,p) でマークできます。l=0,1,2,... は次数、p=e,o はパリティ、l 次の既約表現の次元は 2l+1 です。 。たとえば、ベクトルの次数は 1 (次元 3 を表す) で奇数の偶数であるため、1o と省略できます。

写真

図 4. irreps の概要

たとえば、下図では、a1 ~ a9 がそれぞれ 9 個の実数を表し、a1 ~ a3 をそれぞれ 3 つのスカラー、a4 ~ a6 をベクトル、a7 ~ a9 を別のベクトルとみなした場合、irreps は次のようになります。この行列の は「3 × 0e + 2 × 1o」で表されます。この行列を回転する必要がある場合、irreps の対応するグループに従ってさまざまな変換を実行する必要があります。a1 ~ a3 の 3 つのスカラーでは、回転はそれらの値に影響しないため、1 で乗算されます。対応する値を取得するには、2 つのベクトル a6 と a7 ~ a9 に対応する回転行列を乗算する必要があります。

写真

図 5. 回転行列の例[5]

2つの乗算Irrepsを分解する方法(テンソル積を分解する方法)を説明します。

写真

式 5. テンソル積の分解

例: 2 ⊗ 1 = 1 ⊕ 2 ⊕ 3、2 ⊗ 2 = 0 ⊕ 1 ⊕ 2 ⊕ 3。この例からわかるように、e3nn が等分散性を維持できるのは、ネットワークの入力、出力、中間結果の irreps を事前に決定しているためです。グループの変換が対応する既約表現に従って確実に実行されるようにすることで、混乱を防ぎます。

**4、** DeephE3

ニューラル ネットワークを介してスピン軌道を持つ原子構造 {R} から DFT ハミルトニアンを予測する一般的な E{3} 等変深層学習フレームワーク。 DeephE3 は、小さな材料系の DFT 結果をトレーニングすることで、より大きな材料系の電子予測を学習できます。この方法は、一般的なマジックアングルねじれ二層グラフェンやねじれファンデルワールス材料などのさまざまな材料システムに適用でき、直接 DFT 計算よりも数桁安価です。

以下の図は、ネットワーク全体のアーキテクチャを示しています。このうち、{Zi} は原子番号を表し、 | rij | は原子間の距離を表し、次数が 0 のベクトルを構築するために使用されます。 ^rij は原子間の相対位置を表し、ベクトルは 1、2 に等しい次数のベクトルを構築するために使用されます。 {Zi} は初期頂点として要素埋め込みモジュール (要素埋め込み) に渡され、^rij はエッジ特徴として球面調和関数に渡されます。球面調和関数 Y^l は、入力ベクトルを 2l+1 の基本球面に分解するときの係数を表す 2l+1 次元ベクトルにマッピングを実行します。高調波。

写真

図6. DeephE3の全体構造[1]

生成された頂点とエッジの特徴は、頂点更新ブロックとエッジ更新ブロックを通じて L 回更新されます。更新ブロックは、等変畳み込みを通じて原子間距離と相対的な未知の情報をエンコードします。 。

次に、メッセージ パッシング メソッドを使用して、隣接するエッジに関する情報を取得して、エッジと頂点のベクトルを更新します。

最終的なエッジ ベクトルは Wigner-Eckart 層に渡され、DFT ハミルトニアンが表示されます。スピン軌道結合 (SOC) が無視される場合、ニューラル ネットワークの出力ベクトルは、ルール 1 ⊕ 2 ⊕ 3 = 1 ⊗ 2 を使用して、ウィグナー エッカート層を通じてハミルトニアンに変換されます。 SOC が含まれている場合、出力は、結合して複素数値ベクトルを形成する 2 セットの実数ベクトルで構成されます。これらのベクトルは、別の規則 (1 ⊕ 2 ⊕ 3) ⊕ (0 ⊕ 1 ⊕ 2) ⊕ (1 ⊕ 2 ⊕ 3) ⊕ (2 ⊕ 3 ⊕ 4) = (1 ⊕ 1) を使用してスピン軌道 DFT ハミルトニアンに変換されます。 /2) ⊕ (2 ⊕ 1/2 ) ⊕ はテンソル加算を指し、⊗ はテンソル積を指します。

写真図 7. Wigner-Eckart 層[1]

**5、**まとめ

この記事では、第一原理に基づいた深層学習の応用と、関連する物理的背景を紹介します。ディープラーニングと等変ネットワークのより深い組み合わせにより、従来の方法では計算が困難な量子特性がニューラル ネットワークを通じて予測できるようになり、科学研究機関による新材料の研究、材料データベースの構築などをより効果的に支援できるようになります。さらなるアプリケーション革新を実現します。

参考文献

[1] https://www.nature.com/articles/s41467-023-38468-8

[2] https://www.nature.com/articles/s43588-022-00265-6

[3] https://arxiv.org/abs/2207.09453

[4] https://www.bilibili.com/video/BV1vU4y1f7gQ/?spm_id_from=333.337.search-card.all.click

[5] https://www.youtube.com/watch?v=9rS8gtey_Ic

 

1990 年代生まれのプログラマーがビデオ移植ソフトウェアを開発し、1 年足らずで 700 万以上の利益を上げました。結末は非常に懲罰的でした。 Google は、Flutter、Dart、Python チームの中国人プログラマーの「35 歳の呪い」に関係する人員削減を認めた 。Microsoft 無力な中年者にとっては幸運なおもちゃでもある。強力で GPT-4.5 の疑いがある; Tongyi Qianwen オープンソース 8 モデルWindows 1.0 が 3 か月以内に正式に GA Windows 10 の市場シェアは 70% に達し、Windows 11 GitHub がAI ネイティブ開発ツール GitHub Copilot Workspace JAVAをリリースOLTP+OLAP を処理できる唯一の強力なクエリです。これが最高の ORM です。
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4736317/blog/11072524