Une méthode de solution PDE basée sur des informations physiques machine d'apprentissage extrême

**Auteur|**PINN Shanliwa, page d'accueil de l'auteur
**Direction de la recherche|**Incertitude d'apprentissage profond basée sur l'information physique Intelligence artificielle Équations aux dérivées partielles Machine d'apprentissage extrême

L'auteur se concentre sur la recherche de pointe sur la combinaison de modèles d'apprentissage en profondeur et d'informations physiques, et fournit une série d'IA pour les rapports d'avancement de la recherche scientifique et les implémentations de code, visant à réaliser des méthodes d'apprentissage en profondeur basées sur l'information physique, de l'entrée à la maîtrise.
Embedded Physical Knowledge Neural Network (PINN) Introduction et documents connexes
Apprentissage en profondeur pour résoudre des équations différentielles Série 1 : Cadre de solution PINN (Poisson 1d)
Apprentissage en profondeur pour résoudre des équations différentielles Série 2 : PINN pour résoudre des problèmes de l'équation de Burger
Apprentissage en profondeur pour résoudre des équations différentielles Série 3 : PINN résout le problème inverse de l'équation de Burger
Apprentissage profond pour résoudre l'équation différentielle série 4 : Basé sur la fonction d'activation adaptative PINN résout le problème inverse de l'équation de Burger
Apprentissage profond pour résoudre l'équation différentielle série 5 : PINN résout le problème direct et inverse de l'équation de Navier-Stokes
Une machine d'apprentissage extrême basée sur des informations physiques La méthode de résolution PDE de

Ces dernières années, l'application de méthodes d'apprentissage profond pilotées par des informations physiques aux problèmes de calcul scientifique a reçu de plus en plus d'attention. Parmi eux, le réseau de neurones informé physique (PINN) a montré de grands avantages dans la résolution des problèmes directs et inverses des équations différentielles ( PDE). Mais il n'est pas adapté à certaines applications qui nécessitent une réponse en temps réel. Par conséquent, ce qui suit présentera une méthode de solution PDE basée sur une machine d'apprentissage extrême d'informations physiques, qui est utilisée pour une solution rapide d'équations différentielles linéaires, et peut obtenir une solution de haute précision en temps quasi réel (solution de second niveau). Il présente d'abord les méthodes de base de PINN et des machines d'apprentissage extrêmes, puis présente la méthode d'apprentissage extrême basée sur des informations physiques, puis présente les problèmes de solution et le contexte, et enfin montre les résultats de calcul basés sur Pytorch.
Avantages : La méthode de solution PDE basée sur des informations physiques extrême machine d'apprentissage peut résoudre des équations différentielles linéaires en quelques millisecondes, et cette méthode est une méthode sans maillage qui peut être utilisée pour des systèmes de formes complexes.

1. Contexte du problème

Les équations différentielles linéaires sont également l'un des canaux importants pour relier la théorie à la pratique et jouent un rôle important dans de nombreux domaines tels que la physique, l'ingénierie, la mécanique, l'astronomie, la biologie, la médecine et l'économie. ** Par exemple, les problèmes de calcul des ordinateurs électroniques et des appareils radio peuvent être classés comme la résolution d'équations différentielles ; les calculs balistiques et la recherche sur la stabilité de vol des aéronefs peuvent être classés comme la résolution d'équations différentielles linéaires. Pour une EDP linéaire, cela peut être décrit comme

L u = f λ ( X , y ) , ( X , y ) ∈ Ω B [ u ( X , y ) ] = b ( X , y ) , ( X , y ) ∈ ∂ Ω \begin{aligned} &L u =f_\lambda(x, y),(x, y) \in \Omega \\ &\mathcal{B}[u(x, y)]=b(x, y),(x, y) \in \partial \Omega \end{aligné}L u=Fje( x ,y ) ,( x ,y )OhB [ u ( x ,y ) ]=b ( x ,y ) ,( x ,y )∂Ω _
Où : LLL est un opérateur différentiel linéaire,BBB est la condition limite ou valeur initiale,f λ ( x , y ) f_{\lambda}(x,y)Fje( x ,y ) est l'élément source du système,λ \lambdaλ est un paramètre physique,uuu est la solution du système physique.

2. Introduction au PINN et à l'apprentissage automatique extrême

En tant qu'outil puissant de traitement de l'information, le réseau de neurones a été largement utilisé dans les domaines de la vision par ordinateur, de la biomédecine et de l'ingénierie pétrolière et gazière, déclenchant des changements technologiques dans de nombreux domaines. Le réseau d'apprentissage en profondeur a une capacité d'apprentissage très forte, non seulement en découvrant des lois physiques, mais aussi en résolvant des équations aux dérivées partielles. Ces dernières années, la résolution d'équations aux dérivées partielles basée sur l'apprentissage en profondeur est devenue un nouveau point chaud de la recherche. PINN est une méthode d'application des machines scientifiques dans le domaine numérique traditionnel, qui peut être utilisée pour résoudre divers problèmes liés à l'EDP, notamment la résolution d'équations, l'inversion de paramètres, la découverte de modèles, le contrôle et l'optimisation, etc. Avec le développement des réseaux de neurones, la machine d'apprentissage extrême (ELM) a obtenu un grand succès dans les problèmes de classification et de régression d'images en raison de ses bonnes performances de généralisation et de sa capacité d'apprentissage extrêmement rapide.

2.1Méthode PINN pour résoudre le problème inverse

L'idée principale de PINN est illustrée à la figure 1, construisez d'abord un résultat de sortie sous la forme u ^ \hat{u}tuLe réseau neuronal de ^ , qui est utilisé comme modèle proxy pour la solution PDE, et les informations PDE sont utilisées comme contrainte, codées dans la fonction de perte de réseau neuronal pour la formation. La fonction de perte comprend principalement quatre parties : la perte de structure différentielle partielle (perte PDE), la perte de condition de valeur limite (perte BC), la perte de condition de valeur initiale (perte IC) et la perte de condition de données réelles (perte de données).
insérez la description de l'image ici

Figure 1 : Diagramme schématique du PINN

En particulier, considérons le problème PDE suivant, où la solution du PDE u ( x ) u(x)u ( x )Ω ⊂ R d \Omega \subset \mathbb{R}^{d}OhRd définition, oùx = ( x 1 , … , xd ) \mathbf{x}=\left(x_{1}, \ldots, x_{d}\right)X=( x1,,X)
f ( X ; ∂ u ∂ X 1 , … , ∂ u ∂ xd ; ∂ 2 u ∂ X 1 ∂ X 1 , … , ∂ 2 u ∂ X 1 ∂ Xd ) = 0 , X ∈ Ω f\left( \mathbf{x} ; \frac{\partial u}{\partial x_{1}}, \ldots, \frac{\partial u}{\partial x_{d}} ; \frac{\partial^{2} u}{\partial x_{1} \partial x_{1}}, \ldots, \frac{\partial^{2} u}{\partial x_{1} \partial x_{d}} \right)=0 , \quad \mathbf{x} \in \OmegaF( x ;∂x _1 tu,,∂x _ tu;∂x _1∂x _12 et,,∂x _1∂x _2 et)=0 ,XΩEn
même temps, satisfaire la frontière suivante
B ( u , x ) = 0 sur ∂ Ω \mathcal{B}(u, \mathbf{x})=0 \quad \text { on } \quad \partial \OmegaB ( tu ,x )=0 sur ∂Ω _

Le processus de solution PINN comprend principalement :

  • La première étape consiste à définir le modèle de réseau neuronal de la couche entièrement connectée de la couche D :
    N Θ : = LD ∘ σ ∘ LD − 1 ∘ σ ∘ ⋯ ∘ σ ∘ L 1 N_{\Theta}:=L_D \circ \ sigma \circ L_{D-1} \circ \sigma \circ \cdots \circ \sigma \circ L_1NE:=LpLJ 1ppL1
    式中:
    L 1 ( X ) : = W 1 X + b 1 , W 1 ∈ R ré 1 × ré , b 1 ∈ R ré 1 L je ( X ) : = W ix + bi , W je ∈ R di × di - 1 , bi ∈ R di , ∀ je = 2 , 3 , ⋯ ré - 1 , LD ( X ) : = WD X + b ré , WD ∈ RN × ré ré - 1 , b ré ∈ RN . \begin{aligné} L_1(x) & :=W_1 x+b_1, \quad W_1 \in \mathbb{R}^{d_1 \times d}, b_1 \in \mathbb{R}^{d_1} \\ L_i (x) &:=W_i x+b_i, \quad W_i \in \mathbb{R}^{d_i \times d_{i-1}}, b_i \in \mathbb{R}^{d_i}, \forall i =2,3, \cdots D-1, \\ L_D(x) &:=W_D x+b_D, \quad W_D \in \mathbb{R}^{N \times d_{D-1}}, b_D \ dans \mathbb{R}^N . \end{aligné}L1( x )Lje( x )L( x ): =O1X+b1,O1Rd1× d ,b1Rd1: =OjeX+bje,OjeRdje× dje 1,bjeRdje,je=2 ,3 ,D1 ,: =OX+b,ORN × dJ 1,bRN. _
    et σ\sigmaσ est la fonction d'activation,WWW etbbb est les paramètres de pondération et de biais.
  • La deuxième étape, afin de mesurer le réseau de neurones u ^ \hat{u}tuL ( θ ) = wf LPDE ( θ ; T f ) + wi LIC ( θ ; T i ) + wb LBC ( θ , ; T b ) + wd LD ata(
    θ , ; T données ) \mathcal{L}\left(\boldsymbol{\theta}\right)=w_{f} \mathcal{L}_{PDE}\left(\boldsymbol{\theta}; \mathcal{ T}_{f}\right)+w_{i} \mathcal{L}_{IC}\left(\boldsymbol{\theta} ; \mathcal{T}_{i}\right)+w_{b} \mathcal{L}_{BC}\left(\boldsymbol{\theta}, ; \mathcal{T}_{b}\right)+w_{d} \mathcal{L}_{Données}\left(\ symbole gras{\theta}, ; \mathcal{T}_{données}\right)L( je )=wfLP D E( je ;Jf)+wjeLJe C( je ;Jje)+wbLB C( je ,;Jb)+wLD a t a( je ,;Jd un t un)
    où :
    LPDE ( θ ; T f ) = 1 ∣ T f ∣ ∑ X ∈ T f ∥ F ( X ; ∂ u ^ ∂ X 1 , … , ∂ u ^ ∂ xd ; ∂ 2 u ^ ∂ X 1 ∂ X 1 , … , ∂ 2 u ^ ∂ X 1 ∂ Xd ) ∥ 2 2 LIC ( θ ; T je ) = 1 ∣ T je ∣ ∑ X ∈ T je ∥ u ^ ( X ) - u ( X ) ∥ 2 2 LBC ( θ ; T b ) = 1 ∣ T b ∣ ∑ X ∈ T b ∥ B ( u ^ , x ) ∥ 2 2 LD ata ( θ ; T données ) = 1 ∣ T données ∣ ∑ X ∈ T données ∥ u ^ ( X ) − u ( X ) ∥ 2 2 \begin{aligned} \mathcal{L}_{PDE}\left(\boldsymbol{\theta} ; \mathcal{T}_{f}\right) &=\frac{1 }{\left|\mathcal{T}_{f}\right|} \sum_{\mathbf{x} \in \mathcal{T}_{f}}\left\|f\left(\mathbf{x } ; \frac{\partial \hat{u}}{\partial x_{1}}, \ldots, \frac{\partial \hat{u}}{\partial x_{d}} ; \frac{\partial ^{2} \hat{u}}{\partial x_{1} \partial x_{1}}, \ldots, \frac{\partial^{2} \hat{u}}{\partial x_{1} \partial x_{d}} \right)\right\|_{2}^{2} \\ \mathcal{L}_{IC}\left(\boldsymbol{\theta} ;\mathcal{T}_{i}\right) &=\frac{1}{\left|\mathcal{T}_{i}\right|} \sum_{\mathbf{x}\in \mathcal{T }_{i}}\|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_{2}^{2} \\ \mathcal{L}_{BC} \left(\ballsymbol{\theta};\mathcal{T}_{b}\right) &=\frac{1}{\left|\mathcal{T}_{b}\right|}\sum_{\ mathbf{x} \in \mathcal{T}_{b}}\|\mathcal{B}(\hat{u}, \mathbf{x})\|_{2}^{2}\\ \mathcal {L}_{Données}\left(\symbole gras{\theta} ; \mathcal{T}_{données}\right) &=\frac{1}{\left|\mathcal{T}_{données} \ droite|} \sum_{\mathbf{x} \in \mathcal{T}_{données}}\|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_ { 2}^{2} \end{aligné}=\frac{1}{\left|\mathcal{T}_{b}\right|}\sum_{\mathbf{x}\in \mathcal{T}_{b}}\|\mathcal{B} (\hat{u}, \mathbf{x})\|_{2}^{2}\\ \mathcal{L}_{Données}\left(\bold symbol{\theta} ; \mathcal{T} _ {données}\right) &=\frac{1}{\left|\mathcal{T}_{données}\right|} \sum_{\mathbf{x}\in \mathcal{T}_{données} } \|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_{2}^{2} \end{aligné}=\frac{1}{\left|\mathcal{T}_{b}\right|}\sum_{\mathbf{x}\in \mathcal{T}_{b}}\|\mathcal{B} (\hat{u}, \mathbf{x})\|_{2}^{2}\\ \mathcal{L}_{Données}\left(\bold symbol{\theta} ; \mathcal{T} _ {données}\right) &=\frac{1}{\left|\mathcal{T}_{données}\right|} \sum_{\mathbf{x}\in \mathcal{T}_{données} } \|\hat{u}(\mathbf{x})-u(\mathbf{x})\|_{2}^{2} \end{aligné}LP D E( je ;Jf)LJe C( je ;Jje)LB C( je ;Jb)LD a t a( je ;Jd un t un)=∣T _f1xTfF( x ;∂x _1tu^,,∂x _tu^;∂x _1∂x _12tu^,,∂x _1∂x _2tu^)22=∣T _je1xTjetu^ (x)u ( X ) 22=∣T _b1xTbB (tu^ ,x ) 22=∣T _d un t un1xTd un t untu^ (x)u ( X ) 22
    wf w_{f}wfwi w_{i}wjewb w_{b}wbet wd w_{d}west le poids. T f \mathcal{T}_{f}JfT je \mathcal{T}_{i}JjeT b \mathcal{T}_{b}JbDonnées T \mathcal{T}_{données}Jd un t unReprésente les points résiduels de la PDE, la valeur initiale, la valeur limite et la valeur vraie. Ici T f ⊂ Ω \mathcal{T}_{f} \subset \OmegaJfΩ est un ensemble prédéfini de points pour mesurer la sortie du réseau neuronalu ^ \hat{u}tu^ Étendue de la correspondance avec PDE.
  • Enfin, utilisez l'algorithme d'optimisation du gradient pour minimiser la fonction de perte jusqu'à ce que les paramètres de réseau qui répondent à la précision de la prédiction soient trouvés. KaTeX parse error: Undefined control sequence: \theat at position 1: \̲t̲h̲e̲a̲t̲^{*} .

Il convient de noter que pour les problèmes inverses, c'est-à-dire que certains paramètres de l'équation sont inconnus. Si seules l'équation PDE et les conditions aux limites sont connues et que les paramètres PDE sont inconnus, le problème inverse est un problème indéterminé, donc d'autres informations doivent être connues, comme certains points d'observation uula valeur de u . Dans ce cas, la méthode PINN peut utiliser les paramètres de l'équation comme variables inconnues et les ajouter à l'entraîneur pour optimisation.La fonction de perte inclut la perte de données.

2.2 Méthode ELM pour résoudre

Considérez l'ELM illustré à la figure 2, qui consiste en un réseau de neurones à action directe à une seule couche avec n neurones, en supposant que l'entrée est x = ( x 1 , ⋯ , xj ) T \mathbf{x}=(x_{1}, \ cdots ,x_{j})^{T}X=( x1,,Xje)T , la sortie est un neuroneyyy , l'idée principale d'ELM est que les poids et les biais de la couche d'entrée sont des valeurs aléatoires prédéfinies et sont fixes tout au long du processus de formation, et les poids de la couche de sortie sont obtenus par la formation et l'apprentissage.
insérez la description de l'image ici

Figure 2 : Diagramme schématique d'une machine d'apprentissage extrême

Méthode de solution ELM
Tout d'abord, déterminez la structure du réseau de neurones à anticipation, initialisez les poids et les biais d'entrée (fixés après l'initialisation) et les poids de la couche de sortie (à résoudre). Le mappage entrée-sortie peut être exprimé comme suit :
G ( x ) ν = y \mathbf{G} (\mathbf{x}) \nu=\mathbf{y}G ( x ) n=y
式中:G = [ g ( X ⃗ 1 ) , g ( X ⃗ 2 ) , … , g ( X ⃗ j ) ] T \boldsymbol{G}=\left[g\left(\vec{x}_1 \right), g\left(\vec{x}_2\right), \ldots, g\left(\vec{x}_j\right)\right]^Tg=[ g(X 1),g(X 2),,g(X je) ]TG ( xk ) = [ φ ( aj 1 T xk + b 1 ) , φ ( aj 2 T xk + b 2 ) , … , φ ( ajn T xk + bn ) ] {G}\left({x} _k\right)=\left[\varphi\left({a}_{j1}^T {x}_k+b_1\right), \varphi\left({a}_{j2}^T {x}_k +b_2\right), \ldots, \varphi\left({a}_{jn}^T {x}_k+b_{n}\right)\right]g( xk)=[ f( unj 1TXk+b1),Phi( unje 2TXk+b2),,Phi( unjn _TXk+bn) ]
puis obtenez le poids de la couche de sortie
ν = pin ⁡ v ( G ) x \nu=\operatorname{pin} v(\boldsymbol{G}) \mathbf{x} en résolvantn=p je nv ( G ) x

3. Méthode d'apprentissage automatique extrême basée sur des informations physiques

En tant que version rapide de PINN, la méthode d'apprentissage automatique extrême basée sur des informations physiques a fait l'objet d'une attention particulière dans la résolution d'équations aux dérivées partielles. Sa principale caractéristique est de fixer les poids de la couche d'entrée avec des valeurs aléatoires et d'utiliser la solution inverse généralisée de Moore-Penrose pour les poids de la couche de sortie.
marcher:

  • Tout d'abord, déterminez la structure du réseau neuronal, réseau neuronal monocouche ( nnn neurones), initialiser de manière aléatoire les poids et les biais de la couche d'entrée et les fixer, et initialiser de manière aléatoire les poids de la couche de sortie. Supposons que
    χ = [ X , y , 1 ] T , α = [ α 1 , α 2 , ⋯ , α n ] T , β = [ β 1 , β 2 , ⋯ , β n ] T , γ = [ γ 1 , γ 2 , ⋯ , γ n ] T \chi=[x, y, 1]^T, \boldsymbol{\alpha}=\left[\alpha_1, \alpha_2, \cdots, \alpha_n\right]^T, \ symbole gras{\beta}=\left[\beta_1, \beta_2, \cdots, \beta_n\right]^T,\gamma=\left[\gamma_1, \gamma_2, \cdots, \gamma_n\right]^Th=[ x ,y ,1 ]T ,un=[ un1,un2,,unn]J,b=[ b1,b2,,bn]J, c=[ c1,c2,,cn]T
    où :α , β \alpha, \betaun ,βγ\gammaγ est le paramètre de la couche de sortie, qui est fixé après une initialisation aléatoire. Le réseau utilise une fonction d'activation non linéaireφ = tanh ⁡ \varphi=\tanhPhi=tanh , les paramètres de la couche de sortie sontω = [ ω 1 , ω 2 , ⋯ , ω n ] T \boldsymbol{\omega}=\left[\omega_1, \omega_2, \cdots, \omega_n\right]^TOh=[ ah1,Oh2,,Ohn]T , lekkthLa sortie de k neurones peut être exprimée sous la formeφ ( zk ) \varphi\left(z_k\right)Phi( zk) ,zk = [ α k , β k , γ k ] χ z_k=\left[\alpha_k, \beta_k, \gamma_k\right] \chizk=[ unk,bk,ck]χ , la sortie du réseau neuronal peut être exprimée comme
    u ^ ( χ ) = φ ( z ) ω \hat{u}(\chi)=\varphi(z) \omegatu^ (x)=φ ( z ) ω
  • Deuxièmement, les informations physiques sont codées dans le réseau d'apprentissage extrême. En raison de la particularité du réseau de machine d'apprentissage extrême, l'équation PDE linéaire et les conditions aux limites peuvent être décrites comme ξ f = L φ ( z ) ω − f λ ( x
    , y ) = 0 ξ b = B [ φ ( z ) ω ] − b ( X , y ) = 0 \begin{aligné} &\boldsymbol{\xi}_f=L \varphi(\boldsymbol{z}) \boldsymbol {\omega}- f_\lambda(x, y)=0 \\ &\boldsymbol{\xi}_b=\mathcal{B}[\varphi(\boldsymbol{z}) \boldsymbol{\omega}]-b (x, y) =0 \end{aligné}Xf=L φ ( z ) ωFje( x ,y )=0Xb=B [ φ ( z ) ω ]b ( x ,y )=0
    Grâce à la formule ci-dessus,
    H ω = Y \mathbf{H} \boldsymbol{\omega}=\mathbf{Y}H o=Y
    式中:HH \mathbf{H} \mathbf{H}H HY \mathbf{Y}Y est fait parLLL etB \mathcal{B}La matrice déterminée par B.
    Ensuite, résolvez les paramètres de pondération du réseau et utilisez la solution inverse généralisée de Moore-Penrose pour obtenir
    w ∗ = pin ⁡ v ( H ) Y \boldsymbol{w}^{*}=\operatorname{pin} v(\boldsymbol{H }) \ mathbf{Y}w=p je nv ( H ) Oui
  • Enfin, obtenir la solution de l'EDP
    u ^ ( χ ) = φ ( z ) w ∗ \hat{u}(\chi)=\varphi(z) \boldsymbol{w}^{*}tu^ (x)=φ ( z ) w

4. Affichage de l'exemple de calcul

4.1 Équation de Poisson 2D

uxx + uyy = ( 16 X 2 + 64 y 2 - 12 ) e - ( 2 x 2 + 4 y 2 ) , ( X , y ) ∈ Ω u_{xx}+u_{yy}=\left(16 x^ 2+64 y^2-12\right) e^{-\left(2 x^2+4 y^2\right)},(x, y) \in \Omegatux x+tuoui oui=( 1 6 fois2+6 4 ans21 2 )e( 2x _2 +4ans2 ),( x ,y )
Sauf : Ω = { (x, y) ∣ x = 0,55 ρ (θ) cos ⁡ (θ), y = 0,75 ρ (θ) sin ⁡ (θ) } \Omega=\{(x, y)\ mid x =0.55 \rho(\theta) \cos(\theta), y=0.75 \rho(\theta) \sin(\theta)\}Oh={ ( x ,y )X=0 . 5 5 r ( je )cos ( θ ) ,y=0 . 7 5 r ( je )péché ( θ ) } ,ρ ( θ ) = 1 + cos ⁡ ( θ ) péché ⁡ ( 4 θ ), 0 ≤ θ ≤ 2 π \rho(\theta)=1+\cos(\theta) \sin(4 \theta), 0 \leq \theta \leq 2 \pir ( je )=1+cos ( θ )sin ( 4 θ ) ,0je2
La vraie solution de l' équation π
est : u = 1 2 + e − ( 2 x 2 + 4 y 2 ) u=\frac{1}{2}+e^{-\left(2 x^2+4 y^2 \droite)}tu=21+e( 2x _2 +4ans2 )

4.2 Résultats

Les résultats de prédiction de la machine d'apprentissage extrême basés sur des informations physiques sont illustrés à la figure 3. On peut voir que les résultats de prédiction peuvent être très proches de la vraie solution de l'équation et que le temps de calcul est de 0,85 s.
insérez la description de l'image ici

Figure 3 : Prédiction d'apprentissage automatique extrême basée sur des informations physiques

Les résultats de prédiction de PINN sont illustrés à la figure 4. Le temps de calcul de PINN est de 144 s et la précision de prédiction est de deux ordres de grandeur inférieure à celle de la machine d'apprentissage extrême basée sur des informations physiques.
Veuillez ajouter une description de l'image

Figure 4 : Résultats de la prédiction PINN

Je suppose que tu aimes

Origine blog.csdn.net/weixin_45521594/article/details/128147614
conseillé
Classement