딥러닝 모델 기반의 기존 DFT 모델과 DeepE3 모델 대체에 대한 분석 검토

오픈소스 중국 커뮤니티 팀이 공유라는 이름으로 오픈소스 중국 커뮤니티의 뒷이야기를 전하는 첫 생방송을 진행했습니다."

저자: 유 팬

배경

딥러닝은 최근 몇 년간 컴퓨터 양자화학 분야에서 상당한 진전을 이루었습니다. 기존의 딥러닝 방법은 오늘날 컴퓨팅 성능이 지속적으로 향상됨에 따라 다양한 까다로운 양자 역학 시뮬레이션 작업을 해결하는 데 있어 효율성과 표현력이 입증되었습니다. 딥러닝과 첫 번째 원리는 점점 더 깊어지고 있습니다. 물리학의 기본 법칙에서 시작하여 원자와 전자 규모의 등변 신경망을 결합하여 양자 분야, 특히 DFT 분야에서 값을 예측합니다. DeepE3 및 QhNet과 같은 학습 모델이 탄생했습니다. 이러한 네트워크는 DFT 해밀턴을 예측하는 등변 네트워크를 기반으로 합니다. 이 기사에서는 밀도 범함수 이론(DFT)의 기원, 등변 신경망의 원리 및 보다 일반적인 등변 신경망 E3nn을 소개합니다. 마지막으로 E3를 기반으로 칭화대학교 팀이 제안한 모델인 DeepHE3 모델의 개요를 설명합니다. 기타 DFT 해밀턴을 예측하기 위해 네트워크를 변경하는 모델입니다 [1].

**1.** 밀도 함수 이론

밀도 함수 이론(DFT)은 다중 전자 시스템의 전자 구조를 연구하는 양자 역학적 방법입니다. 다중 전자 시스템은 전자의 밀도 함수로 표현됩니다. 밀도 범함수 이론은 물리학과 화학, 특히 분자와 응집 물질의 특성을 연구하는 데 널리 사용됩니다.

밀도 함수 이론 이전에는 슈뢰딩거 방정식을 풀어 시스템 파동 함수를 계산했습니다. 양자역학의 기본 방정식인 슈뢰딩거 방정식은 다음과 같은 형태를 갖는다.

방정식 1. 시간에 따른 슈뢰딩거 방정식

방정식 2. 시간이 없는 슈뢰딩거 방정식

여기서 Ψ는 미세한 입자의 상태를 설명하는 파동 함수이고, E는 운동 에너지이고, H는 해밀턴(Hamiltonian)입니다. 해밀턴은 양자 시스템의 진화를 설명하며 입자의 운동 에너지와 위치 에너지의 합으로 표현될 수 있습니다. .

N개의 전자와 M개의 원자로 구성된 다중 입자 시스템의 경우 해밀턴에 해당하는 고정 슈뢰딩거 방정식은 일반적으로 다음과 같이 쓸 수 있습니다.

방정식 3. 슈뢰딩거 방정식

이 파동함수는 3*(M + N)개의 변수를 가지므로 풀기가 매우 어렵습니다.

밀도 범함수 이론은 파동함수를 전자 밀도로 대체한 것으로, 전자의 밀도를 통해 다중 전자 시스템의 전자 구조를 연구하는 방법입니다. 그 중 밀도란 전자의 밀도를 기술하는 3차원 좌표의 함수이고, 함수함수란 밀도를 에너지 E로 매핑하는 함수를 말한다. DFT는 전자 밀도를 기본량으로 취하고 에너지를 전자 밀도의 함수 함수로 표현합니다. 전자 밀도는 공간 좌표의 함수일 뿐이므로 다중 전자 시스템의 차원은 3으로 직접 감소되어 슈뢰딩거 방정식의 풀이 과정을 단순화합니다.

1965년 캘리포니아 대학교 샌디에고 캠퍼스의 Walter Cohen과 Shen Lujiu는 Kohn-Sham 방정식을 제안했습니다. 밀도 범함수 이론의 가장 일반적인 대표로서 KS 방정식은 상호작용하는 다중 입자 시스템을 비상호작용하는 단일 입자 시스템으로 변환하고 전자 간의 상호 작용을 알려지지 않은 교환 상관 전위에 기인합니다.

식 4. KS 식[4]

교환 상관 전위 항은 상호작용하는 다중 입자 시스템과 비상호작용하는 다중 입자 시스템 사이의 에너지 차이를 나타냅니다. 그리고 이 에너지 항의 정확한 함수 형태는 알려져 있지 않으며, 국소 밀도 근사(LDA)와 같은 전자 밀도의 근사 함수로만 표현될 수 있습니다. 전자 밀도는 위의 단일 전자 파동 함수 방정식의 해에 의해 결정되므로 이 방정식의 구체적인 형태는 해 자체에 따라 달라지며, 이는 일관된 반복을 통해 해결해야 합니다.

그림 1. 대략적인 계산 과정[4]

계산 복잡도는 O(N^3)이고 N은 전자 수이며 대규모 시스템을 해결하는 것은 여전히 어렵습니다.

**2, ** 등변 네트워크

일부 양자 특성을 계산하기 위해 신경망을 사용할 때 일반적으로 입자 회전에 따른 이러한 특성의 변환을 고려해야 합니다. 에너지 값, 입자 사이의 거리 등과 같은 일부 스칼라 값은 입자 회전의 영향을 받지 않습니다. 힘, 해밀턴 등과 같은 일부 다차원 벡터 특성의 경우 입자의 회전에 따라 값이 변경되어야 하며 이러한 변경은 네트워크의 처음부터 끝까지 일관되어야 합니다. . 따라서 등변 네트워크는 대부분의 제1원리 모델에 사용됩니다.

2.1 등분산이란 무엇입니까?

함수를 예로 들어 보겠습니다. 입력에 적용한 변환이 출력에도 반영되면 해당 함수는 등변입니다. f(g(x)) = g(f(x)).

2.2 등변 네트워크란 무엇입니까?

(1) 네트워크 입력의 변환은 내부 및 출력 결과에 대칭적으로 매핑되어야 합니다.

(2) 예를 들어 3차원 원자 구조가 있다면 신경망을 사용하여 위치 에너지, 전자 수, 힘의 방향 등 다양한 특성을 예측해야 합니다. 원자 구조를 회전하면 스칼라이기 때문에 위치 에너지와 전자 수는 동일하게 유지되어야 하며 다차원 벡터이기 때문에 힘 방향 결과도 그에 따라 변경되어야 합니다. 이 대칭 매핑은 네트워크 중간체와 결과에 반영되어야 합니다. 따라서 이 매핑 관계를 보장하려면 등변 네트워크가 필요합니다.

2.3 왜 등분산을 달성해야 합니까?

동물 사진과 같은 2차원 이미지의 경우 모델을 대칭으로 만들기 위해 일반적으로 데이터 향상이 수행됩니다. 동물 사진은 10개의 다른 각도로 회전된 후 신경망에 공급되어 네트워크가 다르게 훈련되도록 합니다. .각도의 사진입니다. 그러나 원자 구조와 같은 3차원 모델의 경우 이러한 종류의 향상은 현실적이지 않습니다. 일반적으로 간단한 3차원 모델에 데이터를 추가하려면 최소 500번의 데이터 확대 회전이 필요합니다. 다양한 각도 특성의 원자 구조를 적절하게 포괄합니다. 등변 신경망을 사용하는 경우 구조만 전달하면 됩니다.

그림 2. 2차원 동물 이미지

그림 3. 3차원 모델 다이어그램[5]

**3, ** E3nn: 3차원 유클리드 공간 기반의 공간 변환 신경망

E3: 3차원 유클리드 공간의 공간 변환 그룹으로 변환, 회전(SO(3) 특수 직교 그룹) 및 반전으로 분해할 수 있습니다. 변환의 등분산은 이미 컨볼루션에서 만족되므로 회전 및 반전에 중점을 둡니다. -> SO(3)×Z2=O(3)

E3NN의 주요 개념:

1. 그룹 : 회전, 반전 등 공간의 변형 형태.

2. 표현(Representation) : 벡터공간이 어떤 공간변환그룹(Group)에 속하는 표현을 정의한다.

3. 환원 불가능한 표현(irreps): 환원 불가능한 표현은 환원 불가능한 표현과 동일합니다. 각 irreps는 (l,p)로 표시될 수 있습니다. l=0,1,2,...는 차수, p=e,o는 패리티, l차 기약 표현의 차원은 2l+1입니다. . 예를 들어, 벡터는 1의 차수(3차원을 나타냄)와 홀수 균등성을 가지므로 1o로 축약할 수 있습니다.

그림 4. irreps 소개

예를 들어, 아래 그림에서 a1 – a9는 각각 9개의 실수를 나타냅니다. a1 – a3을 각각 3개의 스칼라로 간주하면 a4 – a6을 벡터로 간주하고 a7 – a9를 다른 벡터로 간주하면 irreps는 다음과 같습니다. 이 행렬의 표현은 "3 × 0e + 2 × 1o"입니다. 이 행렬을 회전해야 하는 경우 irreps의 해당 그룹에 따라 서로 다른 변환을 수행해야 합니다. 세 스칼라 a1-a3의 경우 회전은 해당 값에 영향을 주지 않으므로 1을 곱합니다. 해당 값을 얻으려면 두 벡터 a6과 a7-a9에 해당 회전 행렬을 곱해야 합니다.

그림 5. 회전 행렬의 예[5]

다음은 곱해진 두 개의 Irrep을 분해하는 방법(텐서 곱을 분해하는 방법)에 대해 설명합니다.

방정식 5. Tensor 곱의 분해

예: 2 ⊗ 1 = 1 ⊕ 2 ⊕ 3, 2 ⊗ 2 = 0 ⊕ 1 ⊕ 2 ⊕ 3. 이 예에서 볼 수 있듯이 e3nn이 등분산을 유지할 수 있는 이유는 네트워크 입력, 출력 및 중간 결과의 irrep을 미리 결정하기 때문입니다. 해당 축소 불가능한 표현에 따라 그룹의 변형이 수행되도록 하여 혼란을 방지합니다.

**4、** DeephE3

신경망을 통해 스핀 궤도를 갖는 원자 구조 {R}로부터 DFT 해밀턴을 예측하는 일반 E{3} 등변 딥 러닝 프레임워크입니다. DeephE3는 소형 재료 시스템의 DFT 결과를 훈련하여 대규모 재료 시스템의 전자 예측을 예측하는 방법을 학습할 수 있습니다. 이 방법은 일반적인 매직 앵글 트위스트 이중층 그래핀 또는 트위스트 반 데르 발스 재료와 같은 다양한 재료 시스템에 적용 가능하며 직접 DFT 계산보다 몇 배 더 저렴합니다.

아래 그림은 전체 네트워크의 아키텍처를 보여줍니다. 그 중 {Zi}는 원자 번호를 나타내고, |rij |는 원자 사이의 거리를 나타내며 차수가 0인 벡터를 구성하는 데 사용됩니다. ^rij는 원자 사이의 상대적 위치를 나타내며, 벡터는 1, 2와 같은 차수의 벡터를 구성하는 데 사용됩니다. {Zi}는 초기 정점으로 요소 임베딩(Elemental Embedding)에 전달됩니다. | rij |는 에지 특징으로 가우스 확장(Gaussian Bias)에 전달됩니다. 상대 위치로 전달됩니다. 원자 사이 매핑을 수행하여 Y(^rij)를 생성합니다. 구면 조화 함수 Y^l은 3차원 벡터를 2l+1차원 벡터로 매핑하며, 이는 입력 벡터가 2l+1 기본 구형으로 분해될 때의 계수를 나타냅니다. 배음.

그림 6. DeephE3의 전체 구조[1]

생성된 정점 및 가장자리 특징은 정점 업데이트 및 가장자리 업데이트 업데이트 블록을 통해 L번 업데이트됩니다. 업데이트 블록은 등변 컨볼루션을 통해 원자 간 거리 및 상대 미지 정보를 인코딩합니다. 기호는 채널 곱셈을 나타내고 || .

그런 다음 메시지 전달 방법을 사용하여 인접한 가장자리에 대한 정보를 얻어 가장자리와 꼭짓점의 벡터를 업데이트합니다.

최종 가장자리 벡터는 Wigner-Eckart 레이어로 전달되어 DFT 해밀턴을 표시합니다. 스핀-궤도 결합(SOC)을 무시하면 신경망의 출력 벡터는 1 ⊕ 2 ⊕ 3 = 1 ⊗ 2 규칙을 사용하여 Wigner Eckart 레이어를 통해 해밀턴으로 변환됩니다. SOC가 포함된 경우 출력은 복소수 벡터를 형성하기 위해 결합되는 두 세트의 실수 벡터로 구성됩니다. 이러한 벡터는 다른 규칙(1 ⊕ 2 ⊕ 3) ⊕ (0 ⊕ 1 ⊕ 2) ⊕ (1 ⊕ 2 ⊕ 3) ⊕ (2 ⊕ 3 ⊕ 4) = (1 ⊕ 1)을 사용하여 스핀 궤도 DFT 해밀턴으로 변환됩니다. /2) ⊕ (2 ⊕ 1/2 ) ⊕는 텐서 추가를 나타내고, ⊗는 텐서 곱을 나타냅니다.

그림 7. Wigner-Eckart 레이어[1]

**5, ** 요약

이 글에서는 첫 번째 원리와 관련된 물리적 배경을 바탕으로 딥러닝의 적용을 소개합니다. 딥 러닝과 등변 네트워크의 더 깊은 결합을 통해 기존 방법으로 계산하기 어려운 점점 더 많은 양자 특성을 신경 네트워크를 통해 예측할 수 있으므로 과학 연구 기관이 새로운 재료를 연구하고 재료 데이터베이스를 구축하는 등의 작업을 더 효과적으로 수행할 수 있습니다. 더 많은 애플리케이션 혁신을 달성하세요.

참고자료

[1] https://www.nature.com/articles/s41467-023-38468-8

[2] https://www.nature.com/articles/s43588-022-00265-6

[3] https://arxiv.org/abs/2207.09453

[4] https://www.bilibili.com/video/BV1vU4y1f7gQ/?spm_id_from=333.337.search-card.all.click

[5] https://www.youtube.com/watch?v=9rS8gtey_Ic

딥러닝 모델 기반의 기존 DFT 모델과 DeepE3 모델 대체에 대한 분석 검토

참고자료

추천