Examen analytique du remplacement du modèle DFT traditionnel et du modèle DeepE3 basé sur un modèle d'apprentissage en profondeur

L'équipe de la communauté open source chinoise a réalisé sa première diffusion en direct, racontant l'histoire de la communauté open source chinoise au nom du partage.

Auteur : Yu Fan

arrière-plan

L'apprentissage profond a fait des progrès significatifs dans le domaine de la chimie quantique computationnelle ces dernières années. Les méthodes d'apprentissage profond existantes ont prouvé leur efficacité et leur expressivité dans la résolution de diverses tâches difficiles de simulation de mécanique quantique, avec l'augmentation continue de la puissance de calcul actuelle et l'intégration croissante de celles-ci. l'apprentissage en profondeur et les premiers principes deviennent de plus en plus profonds. À partir des lois fondamentales de la physique, les réseaux de neurones équivariants sont combinés à l'échelle des atomes et des électrons pour prédire les valeurs dans le domaine quantique, en particulier dans le domaine de la DFT. des modèles d'apprentissage sont nés, tels que DeepE3 et QhNet. Ces réseaux sont basés sur des réseaux équivariants pour prédire les hamiltoniens DFT. Cet article présentera l'origine de la théorie fonctionnelle de la densité (DFT), le principe du réseau neuronal équivariant et un réseau neuronal équivariant plus général E3nn. Enfin, il présentera le modèle DeepHE3, un modèle proposé par l'équipe de l'Université Tsinghua basé sur E3 et. d'autres. Un modèle qui modifie le réseau pour prédire l'hamiltonien DFT [1].

**1.** Théorie fonctionnelle de la densité

La théorie fonctionnelle de la densité (DFT) est une méthode de mécanique quantique qui étudie la structure électronique des systèmes multi-électrons. Les systèmes multi-électrons sont représentés par la fonctionnelle de densité des électrons. La théorie fonctionnelle de la densité est largement utilisée en physique et en chimie, notamment pour étudier les propriétés des molécules et de la matière condensée.

Avant la théorie fonctionnelle de la densité, la fonction d'onde du système était calculée en résolvant l'équation de Schrödinger. En tant qu'équation de base de la mécanique quantique, l'équation de Schrödinger a la forme suivante :

Équation 1. Équation de Schrödinger dépendant du temps

Équation 2. Équation de Schrödinger sans temps

Où Ψ est la fonction d'onde décrivant l'état des particules microscopiques, E est l'énergie cinétique et H est l'hamiltonien. L'hamiltonien décrit l'évolution du système quantique et peut être exprimé comme la somme de l'énergie cinétique et de l'énergie potentielle des particules. .

Pour un système multiparticules composé de N électrons et de M atomes, l'équation de Schrödinger stationnaire correspondant à l'hamiltonien peut généralement s'écrire :

Équation 3. Équation de Schrödinger

Cette fonction d'onde a 3*(M + N) variables, elle est donc très difficile à résoudre.

La théorie fonctionnelle de la densité remplace la fonction d'onde par la densité électronique, qui est une méthode d'étude de la structure électronique des systèmes multiélectroniques grâce à la densité des électrons. Parmi eux, la densité est une fonction de coordonnées tridimensionnelles pour décrire la densité des électrons, et la fonction fonctionnelle fait référence à une fonction qui mappe la densité en énergie E. La DFT prend la densité électronique comme quantité de base et exprime l'énergie en fonction fonctionnelle de la densité électronique. Puisque la densité électronique n’est fonction que des coordonnées spatiales, la dimension du système multiélectronique est directement réduite à 3, ce qui simplifie le processus de résolution de l’équation de Schrödinger.

En 1965, Walter Cohen et Shen Lujiu de l'Université de Californie à San Diego ont proposé l'équation de Kohn-Sham. En tant que représentant le plus courant de la théorie fonctionnelle de la densité, l'équation KS convertit un système multiparticulaire en interaction en un système à particule unique sans interaction et attribue l'interaction entre les électrons au potentiel de corrélation d'échange inconnu :

Équation 4. Équation KS[4]

Le terme potentiel de corrélation d’échange fait référence à la différence d’énergie entre le système multiparticules en interaction et le système multiparticules sans interaction. Et la forme fonctionnelle exacte de ce terme énergétique est inconnue, et elle ne peut être exprimée que comme une fonctionnelle approximative de la densité électronique, telle que l'approximation de la densité locale (LDA). La densité électronique est déterminée par la solution de l'équation de la fonction d'onde monoélectronique ci-dessus, de sorte que la forme spécifique de cette équation dépend de sa solution elle-même, qui doit être résolue par itération auto-cohérente.

Figure 1. Processus de calcul approximatif[4]

Sa complexité informatique est O(N^3), N est le nombre d’électrons et il est encore difficile de résoudre de grands systèmes.

**2, ** Réseau équivariant

Lorsqu’on utilise des réseaux de neurones pour calculer certaines propriétés quantiques, il est généralement nécessaire de prendre en compte la transformation de ces propriétés par la rotation des particules. Certaines valeurs scalaires, comme les valeurs d'énergie, les distances entre particules, etc., ne sont pas affectées par la rotation des particules. Pour certaines caractéristiques vectorielles multidimensionnelles, telles que la force, l'hamiltonien, etc., les valeurs doivent être modifiées en conséquence en fonction de la rotation des particules, et ce changement doit être cohérent du début à la fin du réseau. . Par conséquent, les réseaux équivariants sont utilisés pour la plupart des modèles fondés sur les premiers principes.

2.1 Qu'est-ce que l'équivariance ?

Prenons l'exemple d'une fonction. Si la transformation que vous appliquez à son entrée se reflète également sur la sortie, alors la fonction est équivariante. f(g(x)) = g(f(x)).

2.2 Qu'est-ce qu'un réseau équilatéral ?

(1) La transformation de l’entrée du réseau doit être mappée symétriquement aux résultats internes et de sortie.

(2) Par exemple, s’il existe une structure atomique tridimensionnelle, nous devons utiliser un réseau neuronal pour prédire ses différentes propriétés, telles que l’énergie potentielle, le nombre d’électrons et la direction de la force. Si nous faisons tourner la structure atomique, son énergie potentielle et son nombre d’électrons devraient rester les mêmes car ce sont des scalaires et leurs résultats de direction de force devraient changer en conséquence car ce sont des vecteurs multidimensionnels ; Cette cartographie symétrique doit se refléter dans les intermédiaires et les résultats du réseau. Par conséquent, garantir cette relation de mappage nécessite un réseau équivariant.

2.3 Pourquoi devrions-nous parvenir à l’équivariance ?

Pour une image bidimensionnelle, telle qu'une image d'animal, afin de rendre le modèle symétrique, l'amélioration des données est généralement effectuée. L'image d'animal est tournée sous 10 angles différents et introduite dans le réseau neuronal pour un entraînement afin que le réseau s'entraîne différemment. .Une image d'un angle. Mais pour un modèle tridimensionnel, tel qu'une structure atomique, ce type d'amélioration n'est pas réaliste. Habituellement, si un modèle tridimensionnel simple doit être complété par des données, il doit comporter au moins 500 rotations d'augmentation des données. couvrir de manière adéquate une structure atomique dans différentes caractéristiques des angles. Si vous utilisez un réseau équivariant, il vous suffit de passer une structure.

Figure 2. Image animale en deux dimensions

Figure 3. Diagramme du modèle tridimensionnel[5]

**3, ** E3nn : réseau neuronal de transformation spatiale basé sur l'espace euclidien tridimensionnel

E3 : Le groupe de transformation spatiale de l'espace euclidien tridimensionnel, qui peut être décomposé en translation, rotation (groupe orthogonal spécial SO(3)) et inversion. L'équivariance de translation est déjà satisfaite en convolution, nous nous concentrons donc sur la rotation et l'inversion. -> SO(3)×Z2=O(3)

Les principaux concepts d'E3NN :

1. Groupe : Types de transformation de l'espace, tels que la rotation et l'inversion.

2. Représentation : définit la représentation du groupe de transformation spatiale (Groupe) auquel appartient l'espace vectoriel.

3. Représentation irréductible (irreps) : La représentation irréductible équivaut à une représentation irréductible. Chaque irréps peut être marqué par (l,p), l=0,1,2,... est l'ordre, p=e,o est la parité et la dimension de la représentation irréductible d'ordre l est 2l+1 . Par exemple, un vecteur a un ordre de 1 (représentant une dimension de 3) et une régularité impaire, il peut donc être abrégé en 1o.

Figure 4. Introduction aux irréps

Par exemple, dans la figure ci-dessous, a1 – a9 représentent respectivement 9 nombres réels. Si a1 – a3 sont considérés comme 3 scalaires respectivement, a4 – a6 sont considérés comme un vecteur et a7 – a9 sont considérés comme un autre vecteur, alors les irréps de cette matrice est "3 × 0e + 2 × 1o" à exprimer. Lorsque nous devons faire pivoter cette matrice, nous devons effectuer différentes transformations selon le groupe correspondant en irreps. Pour les trois scalaires a1-a3, la rotation n'affecte pas leurs valeurs, elles sont donc multipliées par 1. Et pour a4 – Le. deux vecteurs a6 et a7-a9 doivent être multipliés par la matrice de rotation correspondante pour obtenir les valeurs correspondantes.

Figure 5. Exemple de matrice de rotation[5]

Ce qui suit explique comment décomposer deux Irreps multipliés (comment décomposer un produit tensoriel)

Équation 5. Décomposition du produit tensoriel

Par exemple : 2 ⊗ 1 = 1 ⊕ 2 ⊕ 3, 2 ⊗ 2 = 0 ⊕ 1 ⊕ 2 ⊕ 3. Comme le montre cet exemple, la raison pour laquelle e3nn peut maintenir l'équivariance est qu'il détermine à l'avance les irréps des entrées, des sorties et des résultats intermédiaires du réseau. S'assurer que la transformation du Groupe s'effectue selon la représentation irréductible correspondante, évitant ainsi toute confusion.

**4、** DeephE3

Un cadre général d'apprentissage en profondeur équivariant E{3} qui prédit les hamiltoniens DFT à partir de structures atomiques {R} avec des orbites de spin à travers des réseaux de neurones. DeephE3 peut apprendre à prédire les prédictions électroniques de systèmes matériels plus grands en entraînant les résultats DFT de petits systèmes matériels. Cette méthode est applicable à divers systèmes de matériaux, tels que le graphène bicouche torsadé à angle magique général ou les matériaux de Van der Waals torsadés, et est plusieurs ordres de grandeur moins cher que les calculs DFT directs.

La figure ci-dessous montre l'architecture de l'ensemble du réseau. Parmi eux, {Zi} représente le numéro atomique, | rij | représente la distance entre les atomes, et est utilisé pour construire un vecteur d'ordre égal à 0. ^rij représente la position relative entre les atomes, et le vecteur est utilisé pour construire un vecteur d'ordre égal à 1, 2. {Zi} est passé dans le module d'intégration élémentaire (Incorporation élémentaire) comme sommet initial | rij | est passé dans l'extension gaussienne (biais gaussien) comme caractéristique de bord ^rij est passé dans la fonction harmonique sphérique comme position relative ; entre les atomes Effectuer un mappage pour générer Y(^rij). La fonction harmonique sphérique Y^l mappe un vecteur tridimensionnel en un vecteur 2l+1 dimensionnel, qui représente le coefficient lorsque le vecteur d'entrée est décomposé en 2l+1 sphérique de base. harmoniques.

Figure 6. Structure globale de DeephE3[1]

Les caractéristiques de sommet et de bord générées sont mises à jour L fois via des blocs de mise à jour de sommet et de mise à jour de bord. Le bloc de mise à jour code la distance inter-atomes et les informations relatives inconnues par convolution équivariante. .

Utilisez ensuite la méthode de transmission de messages pour mettre à jour les vecteurs d’arêtes et de sommets en obtenant des informations sur les arêtes adjacentes.

Les vecteurs de bord finaux sont transmis à la couche Wigner-Eckart pour afficher l'hamiltonien DFT. Si le couplage spin-orbite (SOC) est ignoré, le vecteur de sortie du réseau neuronal est converti en hamiltonien via la couche Wigner Eckart en utilisant la règle 1 ⊕ 2 ⊕ 3 = 1 ⊗ 2. Si SOC est inclus, la sortie se compose de deux ensembles de vecteurs réels qui se combinent pour former un vecteur à valeurs complexes. Ces vecteurs sont convertis en hamiltoniens DFT spin-orbite en utilisant une autre règle : (1 ⊕ 2 ⊕ 3) ⊕ (0 ⊕ 1 ⊕ 2) ⊕ (1 ⊕ 2 ⊕ 3) ⊕ (2 ⊕ 3 ⊕ 4) = (1 ⊕ 1 /2) ⊕ (2 ⊕ 1/2 ). ⊕ fait référence à l'addition tensorielle, ⊗ fait référence au produit tensoriel.

Figure 7. Couche Wigner-Eckart[1]

**5, ** Résumé

Cet article présente l'application de l'apprentissage profond à partir des premiers principes, ainsi que le contexte physique associé. Grâce à la combinaison plus profonde de l'apprentissage profond et des réseaux équivariants, de plus en plus de propriétés quantiques difficiles à calculer avec les méthodes traditionnelles peuvent être prédites via des réseaux de neurones, aidant ainsi mieux les institutions de recherche scientifique à rechercher de nouveaux matériaux, à créer des bases de données sur les matériaux, etc. réaliser plus d'innovations d'application.

les références

[1] https://www.nature.com/articles/s41467-023-38468-8

[2] https://www.nature.com/articles/s43588-022-00265-6

[3] https://arxiv.org/abs/2207.09453

[4] https://www.bilibili.com/video/BV1vU4y1f7gQ/?spm_id_from=333.337.search-card.all.click

[5] https://www.youtube.com/watch?v=9rS8gtey_Ic

Examen analytique du remplacement du modèle DFT traditionnel et du modèle DeepE3 basé sur un modèle d'apprentissage en profondeur

les références

Je suppose que tu aimes