Analyseüberprüfung des Ersetzens des traditionellen DFT-Modells und des DeepE3-Modells basierend auf dem Deep-Learning-Modell

Das Open-Source-Community-Team China machte seine erste Live-Übertragung und erzählte im Namen des Teilens die Geschichte hinter der Open-Source-Community China.“

Autor: Yu Fan

Hintergrund

Deep Learning hat in den letzten Jahren erhebliche Fortschritte auf dem Gebiet der rechnergestützten Quantenchemie gemacht. Bestehende Deep-Learning-Methoden haben ihre Effizienz und Aussagekraft bei der Lösung verschiedener anspruchsvoller quantenmechanischer Simulationsaufgaben unter Beweis gestellt Deep Learning und erste Prinzipien werden immer tiefer, ausgehend von den Grundgesetzen der Physik, werden äquivariante neuronale Netze auf der Skala von Atomen und Elektronen kombiniert, um Werte im Quantenfeld vorherzusagen, insbesondere im Bereich der DFT Es wurden Lernmodelle wie DeepE3 und QhNet entwickelt, die auf äquivarianten Netzwerken zur Vorhersage von DFT-Hamiltonoperatoren basieren. In diesem Artikel werden der Ursprung der Dichtefunktionaltheorie (DFT), das Prinzip des äquivarianten neuronalen Netzwerks und ein allgemeineres äquivariantes neuronales Netzwerk E3nn vorgestellt. Schließlich wird das DeepHE3-Modell skizziert, ein vom Team der Tsinghua-Universität vorgeschlagenes Modell, das auf E3 und basiert andere. Ein Modell, das das Netzwerk ändert, um den DFT-Hamiltonianer vorherzusagen [1].

**1.** Dichtefunktionaltheorie

Die Dichtefunktionaltheorie (DFT) ist eine quantenmechanische Methode, die die elektronische Struktur von Mehrelektronensystemen untersucht. Mehrelektronensysteme werden durch die Dichtefunktion von Elektronen dargestellt. Die Dichtefunktionaltheorie wird in der Physik und Chemie häufig verwendet, insbesondere zur Untersuchung der Eigenschaften von Molekülen und kondensierter Materie.

Vor der Dichtefunktionaltheorie wurde die Systemwellenfunktion durch Lösen der Schrödinger-Gleichung berechnet. Als Grundgleichung der Quantenmechanik hat die Schrödinger-Gleichung folgende Form:

Bild

Gleichung 1. Zeitabhängige Schrödinger-Gleichung

Bild

Gleichung 2. Schrödinger-Gleichung ohne Zeit

Dabei ist Ψ die Wellenfunktion, die den Zustand mikroskopischer Teilchen beschreibt, E die kinetische Energie und H der Hamilton-Operator. Der Hamilton-Operator beschreibt die Entwicklung des Quantensystems und kann als Summe der kinetischen Energie und der potentiellen Energie der Teilchen ausgedrückt werden .

Für ein Mehrteilchensystem bestehend aus N Elektronen und M Atomen kann die stationäre Schrödinger-Gleichung, die dem Hamilton-Operator entspricht, im Allgemeinen wie folgt geschrieben werden:

Bild

Gleichung 3. Schrödinger-Gleichung

Diese Wellenfunktion hat 3*(M + N) Variablen und ist daher sehr schwer zu lösen.

Die Dichtefunktionaltheorie ersetzt die Wellenfunktion durch die Elektronendichte, eine Methode zur Untersuchung der elektronischen Struktur von Mehrelektronensystemen anhand der Elektronendichte. Unter ihnen ist die Dichte eine Funktion dreidimensionaler Koordinaten zur Beschreibung der Elektronendichte, und die funktionale Funktion bezieht sich auf eine Funktion, die die Dichte in die Energie E umwandelt. DFT nimmt die Elektronendichte als Grundgröße und drückt Energie als funktionale Funktion der Elektronendichte aus. Da die Elektronendichte nur eine Funktion der Raumkoordinaten ist, reduziert sich die Dimension des Mehrelektronensystems direkt auf 3, was den Lösungsprozess der Schrödinger-Gleichung vereinfacht.

Im Jahr 1965 schlugen Walter Cohen und Shen Lujiu von der University of California, San Diego, die Kohn-Sham-Gleichung vor. Als gebräuchlichster Vertreter der Dichtefunktionaltheorie wandelt die KS-Gleichung ein wechselwirkendes Mehrteilchensystem in ein nicht wechselwirkendes Einteilchensystem um und führt die Wechselwirkung zwischen Elektronen auf das unbekannte Austauschkorrelationspotential zurück:

Bild

Gleichung 4. KS-Gleichung[4]

Der Begriff Austauschkorrelationspotential bezieht sich auf die Energiedifferenz zwischen dem wechselwirkenden Mehrteilchensystem und dem nicht wechselwirkenden Mehrteilchensystem. Und die genaue funktionale Form dieses Energieterms ist unbekannt und kann nur als ungefähre Funktion der Elektronendichte ausgedrückt werden, beispielsweise durch die lokale Dichtenäherung (Local Density Approximation, LDA). Die Elektronendichte wird durch die Lösung der obigen Einzelelektronenwellenfunktionsgleichung bestimmt, daher hängt die spezifische Form dieser Gleichung von ihrer Lösung selbst ab, die durch selbstkonsistente Iteration gelöst werden muss.

Bild

Abbildung 1. Ungefährer Berechnungsprozess[4]

Seine Rechenkomplexität beträgt O(N^3), N ist die Anzahl der Elektronen und es ist immer noch schwierig, große Systeme zu lösen.

**2, ** Äquivariantes Netzwerk

Bei der Verwendung neuronaler Netze zur Berechnung einiger Quanteneigenschaften ist es in der Regel notwendig, die Transformation dieser Eigenschaften durch die Rotation der Teilchen zu berücksichtigen. Einige Skalarwerte wie Energiewerte, Abstände zwischen Partikeln usw. werden durch die Rotation der Partikel nicht beeinflusst. Für einige mehrdimensionale Vektoreigenschaften wie Kraft, Hamiltonian usw. müssen die Werte entsprechend der Drehung der Partikel entsprechend geändert werden, und diese Änderung muss vom Anfang bis zum Ende des Netzwerks konsistent sein . Daher werden für die meisten Ab-initio-Modelle äquivariante Netzwerke verwendet.

2.1 Was ist Äquivarianz?

Nehmen Sie als Beispiel eine Funktion. Wenn sich die Transformation, die Sie auf ihre Eingabe anwenden, auch in der Ausgabe widerspiegelt, ist die Funktion äquivariant. f(g(x)) = g(f(x)).

2.2 Was ist ein gleichseitiges Netzwerk?

(1) Die Transformation der Netzwerkeingabe muss symmetrisch auf die internen und Ausgabeergebnisse abgebildet werden.

(2) Wenn es beispielsweise eine dreidimensionale Atomstruktur gibt, müssen wir ein neuronales Netzwerk verwenden, um ihre verschiedenen Eigenschaften wie potenzielle Energie, Anzahl der Elektronen und Kraftrichtung vorherzusagen. Wenn wir die Atomstruktur drehen, sollten ihre potentielle Energie und die Anzahl der Elektronen gleich bleiben, da es sich um Skalare handelt, und ihre Kraftrichtungsergebnisse sollten sich entsprechend ändern, da es sich um mehrdimensionale Vektoren handelt. Diese symmetrische Abbildung muss sich in den Zwischenprodukten und Ergebnissen des Netzwerks widerspiegeln. Um diese Zuordnungsbeziehung sicherzustellen, ist daher ein äquivariantes Netzwerk erforderlich.

2.3 Warum sollten wir Äquivarianz erreichen?

Um das Modell symmetrisch zu machen, wird bei einem zweidimensionalen Bild, beispielsweise einem Tierbild, normalerweise eine Datenverbesserung durchgeführt. Das Tierbild wird zum Training in das neuronale Netzwerk eingespeist, damit das Netzwerk anders trainiert . Ein Bild von einem Winkel. Für ein dreidimensionales Modell, beispielsweise eine atomare Struktur, ist diese Art der Erweiterung jedoch nicht realistisch. Wenn ein einfaches dreidimensionales Modell mit Daten erweitert werden soll, sind mindestens 500 Umdrehungen der Datenerweiterung erforderlich eine atomare Struktur in verschiedenen Winkelcharakteristika angemessen abdecken. Wenn Sie ein äquivariantes Netzwerk verwenden, müssen Sie nur eine Struktur übergeben.

Bild

Abbildung 2. Zweidimensionales Tierbild

Bild

Abbildung 3. Dreidimensionales Modelldiagramm[5]

**3, ** E3nn: Raumtransformations-Neuronales Netzwerk basierend auf dem dreidimensionalen euklidischen Raum

E3: Die räumliche Transformationsgruppe des dreidimensionalen euklidischen Raums, die in Translation, Rotation (SO(3) spezielle orthogonale Gruppe) und Inversion zerlegt werden kann. Die Äquivarianz der Translation ist bereits in der Faltung erfüllt, daher konzentrieren wir uns auf Rotation und Inversion -> SO(3)×Z2=O(3)

Die Hauptkonzepte in E3NN:

1. Gruppe: Raumtransformationsarten wie Rotation und Inversion.

2. Darstellung: Definiert die Darstellung, zu welcher Raumtransformationsgruppe (Gruppe) der Vektorraum gehört.

3. Irreduzible Darstellung (Irreps): Eine irreduzible Darstellung ist äquivalent zu einer irreduziblen Darstellung. Jeder Irrep kann mit (l,p) markiert werden, l=0,1,2,... ist die Ordnung, p=e,o ist die Parität und die Dimension der irreduziblen Darstellung l-Ordnung ist 2l+1 . Beispielsweise hat ein Vektor eine Ordnung von 1 (was eine Dimension von 3 darstellt) und eine ungerade Gleichmäßigkeit, sodass er als 1o abgekürzt werden kann.

Bild

Abbildung 4. Einführung in Irreps

In der Abbildung unten stellen a1 – a9 beispielsweise jeweils 9 reelle Zahlen dar. Wenn a1 – a3 jeweils als 3 Skalare betrachtet werden, a4 – a6 als ein Vektor und a7 – a9 als ein weiterer Vektor, dann werden die Irreps betrachtet dieser Matrix ist „3 × 0e + 2 × 1o“ auszudrücken. Wenn wir diese Matrix drehen müssen, müssen wir entsprechend der entsprechenden Gruppe in Irreps unterschiedliche Transformationen durchführen. Für die drei Skalare a1-a3 hat die Drehung keinen Einfluss auf ihre Werte, daher werden sie mit 1 multipliziert. Und für a4 – The Zwei Vektoren a6 und a7-a9 müssen mit der entsprechenden Rotationsmatrix multipliziert werden, um die entsprechenden Werte zu erhalten.

Bild

Abbildung 5. Beispiel einer Rotationsmatrix[5]

Im Folgenden wird erklärt, wie man zwei multiplizierte Irreps zerlegt (wie man ein Tensorprodukt zerlegt)

Bild

Gleichung 5. Zerlegung des Tensorprodukts

Zum Beispiel: 2 ⊗ 1 = 1 ⊕ 2 ⊕ 3, 2 ⊗ 2 = 0 ⊕ 1 ⊕ 2 ⊕ 3. Wie aus diesem Beispiel ersichtlich ist, besteht der Grund, warum e3nn die Äquivarianz aufrechterhalten kann, darin, dass es die Irreps von Netzwerkeingaben, -ausgaben und Zwischenergebnissen im Voraus bestimmt. Um sicherzustellen, dass die Transformation der Gruppe gemäß der entsprechenden irreduziblen Darstellung durchgeführt wird, um dadurch Verwirrung zu vermeiden.

**4、** DeephE3

Ein allgemeines E{3}-äquivariantes Deep-Learning-Framework, das DFT-Hamiltonoperatoren aus Atomstrukturen {R} mit Spinbahnen durch neuronale Netze vorhersagt. DeephE3 kann lernen, elektronische Vorhersagen größerer Materialsysteme vorherzusagen, indem es die DFT-Ergebnisse kleiner Materialsysteme trainiert. Diese Methode ist auf verschiedene Materialsysteme anwendbar, beispielsweise auf allgemeine um den magischen Winkel verdrehte Graphen-Doppelschichten oder verdrehte Van-der-Waals-Materialien, und ist mehrere Größenordnungen günstiger als direkte DFT-Berechnungen.

Die folgende Abbildung zeigt die Architektur des gesamten Netzwerks. Unter ihnen stellt {Zi} die Ordnungszahl dar, |. rij | stellt den Abstand zwischen Atomen dar und wird verwendet, um einen Vektor mit der Ordnung gleich 0 zu konstruieren. ^rij stellt die relative Position zwischen Atomen dar und der Vektor wird verwendet, um einen Vektor mit der Ordnung 1, 2 zu konstruieren. {Zi} wird im Elementar-Einbettungsmodul als Anfangsscheitelpunkt übergeben; rij | wird in der Gaußschen Erweiterung (Gaussian Bias) als Kantenmerkmal übergeben; zwischen Atomen Führen Sie eine Zuordnung durch, um Y(^rij) zu erzeugen. Die sphärische harmonische Funktion Y^l bildet einen dreidimensionalen Vektor in einen 2l+1-dimensionalen Vektor ab, der den Koeffizienten darstellt, wenn der Eingabevektor in 2l+1 Grundkugeln zerlegt wird Harmonische.

Bild

Abbildung 6. Gesamtstruktur von DeephE3[1]

Die generierten Scheitelpunkt- und Kantenmerkmale werden L-mal durch Scheitelpunktaktualisierungs- und Kantenaktualisierungsblöcke aktualisiert. Der Aktualisierungsblock kodiert den Abstand zwischen Atomen und relative unbekannte Informationen durch äquivariante Faltung .

Verwenden Sie dann die Nachrichtenübermittlungsmethode, um die Vektoren von Kanten und Scheitelpunkten zu aktualisieren, indem Sie Informationen über benachbarte Kanten erhalten.

Die endgültigen Kantenvektoren werden an die Wigner-Eckart-Ebene übergeben, um den DFT-Hamiltonoperator anzuzeigen. Wenn die Spin-Bahn-Kopplung (SOC) ignoriert wird, wird der Ausgabevektor des neuronalen Netzwerks durch die Wigner-Eckart-Schicht unter Verwendung der Regel 1 ⊕ 2 ⊕ 3 = 1 ⊗ 2 in einen Hamilton-Operator umgewandelt. Wenn SOC einbezogen wird, besteht die Ausgabe aus zwei Sätzen reeller Vektoren, die zusammen einen komplexwertigen Vektor bilden. Diese Vektoren werden mithilfe einer anderen Regel in Spin-Bahn-DFT-Hamiltonoperatoren umgewandelt: (1 ⊕ 2 ⊕ 3) ⊕ (0 ⊕ 1 ⊕ 2) ⊕ (1 ⊕ 2 ⊕ 3) ⊕ (2 ⊕ 3 ⊕ 4) = (1 ⊕ 1 /2) ⊕ (2 ⊕ 1/2 ) bezieht sich auf die Tensor-Addition, ⊗ bezieht sich auf das Tensor-Produkt.

Bild Abbildung 7. Wigner-Eckart-Schicht[1]

**5, ** Zusammenfassung

In diesem Artikel wird die Anwendung von Deep Learning anhand erster Prinzipien sowie der damit verbundene physikalische Hintergrund vorgestellt. Mit der tieferen Kombination von Deep Learning und äquivarianten Netzen können immer mehr Quanteneigenschaften, die mit herkömmlichen Methoden schwer zu berechnen sind, durch neuronale Netze vorhergesagt werden, wodurch wissenschaftliche Forschungseinrichtungen besser bei der Erforschung neuer Materialien, dem Aufbau von Materialdatenbanken usw. unterstützt werden Erzielen Sie mehr Anwendungsinnovationen.

Verweise

[1] https://www.nature.com/articles/s41467-023-38468-8

[2] https://www.nature.com/articles/s43588-022-00265-6

[3] https://arxiv.org/abs/2207.09453

[4] https://www.bilibili.com/video/BV1vU4y1f7gQ/?spm_id_from=333.337.search-card.all.click

[5] https://www.youtube.com/watch?v=9rS8gtey_Ic

Analyseüberprüfung des Ersetzens des traditionellen DFT-Modells und des DeepE3-Modells basierend auf dem Deep-Learning-Modell

Verweise

Ich denke du magst