Revisão da análise da substituição do modelo DFT tradicional e do modelo DeepE3 baseado no modelo de aprendizagem profunda

A equipe da comunidade de código aberto da China fez sua primeira transmissão ao vivo, contando a história por trás da comunidade de código aberto da China em nome do compartilhamento."

Autor: Yu Fan

fundo

O aprendizado profundo fez progressos significativos no campo da química quântica computacional nos últimos anos. Os métodos de aprendizado profundo existentes provaram sua eficiência e expressividade na resolução de várias tarefas desafiadoras de simulação de mecânica quântica. o aprendizado profundo e os primeiros princípios estão cada vez mais profundos. A partir das leis básicas da física, redes neurais equivariantes são combinadas na escala de átomos e elétrons para prever valores no campo quântico, especialmente no campo de DFT. nasceram modelos de aprendizagem, como DeepE3 e QhNet. Essas redes são baseadas em redes equivariantes para prever hamiltonianos de DFT. Este artigo apresentará a origem da teoria do funcional da densidade (DFT), o princípio da rede neural equivariante e uma rede neural equivariante mais geral E3nn. Finalmente, descreverá o modelo DeepHE3, um modelo proposto pela equipe da Universidade de Tsinghua baseado em E3 e. outros. Um modelo que altera a rede para prever o hamiltoniano da DFT [1].

**1. ** Teoria do funcional da densidade

A teoria do funcional da densidade (DFT) é um método da mecânica quântica que estuda a estrutura eletrônica de sistemas multieletrônicos. Sistemas multieletrônicos são representados pelo funcional de densidade dos elétrons. A teoria do funcional da densidade é amplamente utilizada em física e química, especialmente para estudar as propriedades de moléculas e matéria condensada.

Antes da teoria do funcional da densidade, a função de onda do sistema era calculada resolvendo a equação de Schrödinger. Como equação básica da mecânica quântica, a equação de Schrödinger tem a seguinte forma:

foto

Equação 1. Equação de Schrödinger dependente do tempo

foto

Equação 2. Equação de Schrödinger sem tempo

Onde Ψ é a função de onda que descreve o estado das partículas microscópicas, E é a energia cinética e H é o hamiltoniano. O hamiltoniano descreve a evolução do sistema quântico e pode ser expresso como a soma da energia cinética e da energia potencial das partículas. .

Para um sistema multipartícula composto por N elétrons e M átomos, a equação de Schrödinger estacionária correspondente ao hamiltoniano geralmente pode ser escrita como:

foto

Equação 3. Equação de Schrödinger

Esta função de onda possui 3*(M + N) variáveis, por isso é muito difícil de resolver.

A teoria do funcional da densidade substitui a função de onda pela densidade eletrônica, que é um método de estudar a estrutura eletrônica de sistemas multieletrônicos por meio da densidade dos elétrons. Entre eles, a densidade é uma função de coordenadas tridimensionais para descrever a densidade dos elétrons, e a função funcional refere-se a uma função que mapeia a densidade em energia E. A DFT considera a densidade eletrônica como uma quantidade básica e expressa a energia como uma função funcional da densidade eletrônica. Como a densidade eletrônica é função apenas das coordenadas espaciais, a dimensão do sistema multieletrônico é diretamente reduzida para 3, o que simplifica o processo de solução da equação de Schrödinger.

Em 1965, Walter Cohen e Shen Lujiu, da Universidade da Califórnia, San Diego, propuseram a equação de Kohn-Sham. Como o representante mais comum na teoria do funcional da densidade, a equação KS converte um sistema multipartícula interagente em um sistema de partícula única não interagente e atribui a interação entre elétrons ao potencial de correlação de troca desconhecido:

foto

Equação 4. Equação KS[4]

O termo potencial de correlação de troca refere-se à diferença de energia entre o sistema multipartículas em interação e o sistema multipartículas sem interação. E a forma funcional exata deste termo de energia é desconhecida e só pode ser expressa como um funcional aproximado da densidade eletrônica, como a aproximação da densidade local (LDA). A densidade eletrônica é determinada pela solução da equação da função de onda de um único elétron acima, portanto a forma específica desta equação depende de sua própria solução, que precisa ser resolvida por iteração autoconsistente.

foto

Figura 1. Processo de cálculo aproximado[4]

Sua complexidade computacional é O(N^3), N é o número de elétrons e ainda é difícil resolver sistemas grandes.

**2, ** Rede equivalente

Ao utilizar redes neurais para calcular algumas propriedades quânticas, geralmente é necessário levar em consideração a transformação dessas propriedades pela rotação das partículas. Alguns valores escalares, como valores de energia, distâncias entre partículas, etc., não são afetados pela rotação das partículas. Para algumas características vetoriais multidimensionais, como força, hamiltoniano, etc., os valores precisam ser alterados de acordo com a rotação das partículas, e essa mudança precisa ser consistente do início ao fim da rede . Portanto, redes equivariantes são usadas para a maioria dos modelos de primeiros princípios.

2.1 O que é equivariância?

Tome uma função como exemplo. Se a transformação aplicada à sua entrada também for refletida na saída, então a função é equivariante. f(g(x)) = g(f(x)).

2.2 O que é uma rede equilátera?

(1) A transformação da entrada da rede precisa ser mapeada simetricamente aos resultados internos e de saída.

(2) Por exemplo, se existe uma estrutura atômica tridimensional, precisamos usar uma rede neural para prever suas diversas propriedades, como energia potencial, número de elétrons e direção da força. Se girarmos a estrutura atômica, sua energia potencial e número de elétrons deverão permanecer os mesmos porque são escalares e os resultados da direção de sua força deverão mudar de acordo porque são vetores multidimensionais; Este mapeamento simétrico precisa de ser refletido nos intermediários e resultados da rede. Portanto, garantir esta relação de mapeamento requer uma rede equivariante.

2.3 Por que devemos alcançar a equivariância?

Para uma imagem bidimensional, como uma imagem de animal, a fim de tornar o modelo simétrico, o aprimoramento de dados geralmente é realizado. A imagem do animal é girada em 10 ângulos diferentes e alimentada na rede neural para treinamento para fazer a rede treinar de maneira diferente. . Uma imagem de um ângulo. Mas para um modelo tridimensional, como uma estrutura atômica, esse tipo de aprimoramento não é realista. Normalmente, se um modelo tridimensional simples for aumentado com dados, ele precisará ter pelo menos 500 rotações de aumento de dados. cobrir adequadamente uma estrutura atômica em diferentes características de ângulos. Se você usar uma rede equivariante, precisará apenas passar uma estrutura.

foto

Figura 2. Imagem animal bidimensional

foto

Figura 3. Diagrama do modelo tridimensional[5]

**3, ** E3nn: Rede neural de transformação espacial baseada no espaço euclidiano tridimensional

E3: O grupo de transformação espacial do espaço euclidiano tridimensional, que pode ser decomposto em translação, rotação (grupo ortogonal especial SO(3)) e inversão. A equivariância da translação já está satisfeita na convolução, então nos concentramos na rotação e inversão. -> ASSIM(3)×Z2=O(3)

Os principais conceitos do E3NN:

1. Grupo: Tipos de transformação do espaço, como rotação e inversão.

2. Representação: Define a representação de qual grupo de transformação espacial (Grupo) o espaço vetorial pertence.

3. Representação irredutível (irreps): A representação irredutível equivale a uma representação irredutível. Cada irreps pode ser marcado com (l,p), l=0,1,2,... é a ordem, p=e,o é a paridade, e a dimensão da representação irredutível de ordem l é 2l+1 . Por exemplo, um vetor tem ordem 1 (representando uma dimensão 3) e paridade ímpar, portanto pode ser abreviado como 1o.

foto

Figura 4. Introdução ao irreps

Por exemplo, na figura abaixo, a1 – a9 representam 9 números reais respectivamente. Se a1 – a3 são considerados como 3 escalares respectivamente, a4 – a6 são considerados como um vetor e a7 – a9 são considerados como outro vetor, então os irreps. desta matriz é "3 × 0e + 2 × 1o" para expressar. Quando precisamos girar esta matriz, precisamos realizar diferentes transformações de acordo com o Grupo correspondente em irreps. Para os três escalares a1-a3, a rotação não afeta seus valores, então eles são multiplicados por 1. E para a4 – O. dois vetores a6 e a7-a9 precisam ser multiplicados pela matriz de rotação correspondente para obter os valores correspondentes.

foto

Figura 5. Exemplo de matriz de rotação[5]

O seguinte explica como decompor dois Irreps multiplicados (como decompor um produto tensorial)

foto

Equação 5. Decomposição do produto Tensor

Por exemplo: 2 ⊗ 1 = 1 ⊕ 2 ⊕ 3, 2 ⊗ 2 = 0 ⊕ 1 ⊕ 2 ⊕ 3. Como pode ser visto neste exemplo, a razão pela qual e3nn pode manter a equivariância é que ele determina antecipadamente as irreversibilidades da entrada, saída e resultados intermediários da rede. Garantir que a transformação do Grupo se efectue de acordo com a representação irredutível correspondente, evitando assim confusões.

**4、** DeephE3

Uma estrutura geral de aprendizado profundo equivariante E{3} que prevê hamiltonianos DFT a partir de estruturas atômicas {R} com órbitas de spin por meio de redes neurais. DeephE3 pode aprender a prever previsões eletrônicas de sistemas de materiais maiores treinando os resultados DFT de sistemas de materiais pequenos. Este método é aplicável a vários sistemas de materiais, como grafeno de bicamada torcida de ângulo mágico geral ou materiais de van der Waals torcidos, e é várias ordens de magnitude mais barato do que cálculos diretos de DFT.

A figura abaixo mostra a arquitetura de toda a rede. Dentre eles, {Zi} representa o número atômico, | rij | representa a distância entre os átomos, e é usado para construir um vetor com ordem igual a 0. ^rij representa a posição relativa entre os átomos, e o vetor é usado para construir um vetor com ordem igual a 1, 2. {Zi} é passado no módulo de incorporação elementar (incorporação elementar) como o vértice inicial | rij | é passado na extensão gaussiana (viés gaussiano) como o recurso de borda ^rij é passado na função harmônica esférica; entre átomos Realize o mapeamento para gerar Y(^rij). A função harmônica esférica Y^l mapeia um vetor tridimensional em um vetor 2l+1-dimensional, que representa o coeficiente quando o vetor de entrada é decomposto em 2l+1 esférico básico. harmônicos.

foto

Figura 6. Estrutura geral do DeephE3[1]

Os recursos de vértice e borda gerados são atualizados L vezes por meio de blocos de atualização de vértice e atualização de borda. O bloco de atualização codifica a distância entre átomos e informações relativas desconhecidas por meio de convolução equivariante. .

Em seguida, use o método de passagem de mensagens para atualizar os vetores de arestas e vértices, obtendo informações sobre arestas adjacentes.

Os vetores de aresta finais são passados para a camada Wigner-Eckart para exibir o Hamiltoniano DFT. Se o acoplamento spin-órbita (SOC) for ignorado, o vetor de saída da rede neural é convertido em um hamiltoniano através da camada Wigner Eckart usando a regra 1 ⊕ 2 ⊕ 3 = 1 ⊗ 2. Se o SOC for incluído, a saída consiste em dois conjuntos de vetores reais que se combinam para formar um vetor de valores complexos. Esses vetores são convertidos em hamiltonianos DFT spin-órbita usando outra regra: (1 ⊕ 2 ⊕ 3) ⊕ (0 ⊕ 1 ⊕ 2) ⊕ (1 ⊕ 2 ⊕ 3) ⊕ (2 ⊕ 3 ⊕ 4) = (1 ⊕ 1 /2) ⊕ (2 ⊕ 1/2 ). ⊕ refere-se à adição de tensores, ⊗ refere-se ao produto tensorial.

foto Figura 7. Camada Wigner-Eckart[1]

**5, ** Resumo

Este artigo apresenta a aplicação do aprendizado profundo a partir dos primeiros princípios, bem como a formação física relacionada. Com a combinação mais profunda de aprendizagem profunda e redes equivariantes, cada vez mais propriedades quânticas que são difíceis de calcular com métodos tradicionais podem ser previstas através de redes neurais, ajudando assim melhor as instituições de pesquisa científica a pesquisar novos materiais, construir bancos de dados de materiais, etc., para alcançar mais inovações de aplicação.

referências

[1] https://www.nature.com/articles/s41467-023-38468-8

[2] https://www.nature.com/articles/s43588-022-00265-6

[3] https://arxiv.org/abs/2207.09453

[4] https://www.bilibili.com/video/BV1vU4y1f7gQ/?spm_id_from=333.337.search-card.all.click

[5] https://www.youtube.com/watch?v=9rS8gtey_Ic

Revisão da análise da substituição do modelo DFT tradicional e do modelo DeepE3 baseado no modelo de aprendizagem profunda

referências

Acho que você gosta