Réseau neuronal : points de connaissance de la couche de fonction d'activation

1. Le rôle de la fonction d'activation, quelles sont les fonctions d'activation couramment utilisées ?

Le rôle de la fonction d'activation

La fonction d'activation peut introduire des facteurs non linéaires pour améliorer la capacité d'expression d'apprentissage du réseau.

Fonctions d'activation couramment utilisées

Fonction d'activation sigmoïde

La fonction est définie comme :

f ( x ) = 1 1 + e − xf(x) = \frac{1}{1 + e^{-x}}f ( x )=1+e−x _1

Comme le montre la figure ci-dessous, sa plage de valeurs est (0, 1) (0,1)( 0 ,1 ) . En d’autres termes, chaque neurone et nœud d’entrée sera mis à l’échelle à une valeur comprise entre0 et 0.0 et1 1valeur comprise entre 1 .

Quand xxLorsque x est supérieur à zéro, le résultat de sortie approchera1 11 , et quandxxLorsque x est inférieur à zéro, le résultat de sortie tend vers0 00. En raison des caractéristiques de la fonction,elle est souvent utilisée comme fonction d'activation de sortie pour la classification binaire.

Dérivé du Sigmoïde :

f ′ ( x ) = ( 1 1 + e − x ) ′ = 1 1 + e − x ( 1 − 1 1 + e − x ) = f ( x ) ( 1 − f ( x ) ) f^{'} (x)=(\frac{1}{1+e^{-x}})^{'}=\frac{1}{1+e^{-x}}\left( 1- \frac{1 }{1+e^{-x}} \right)=f(x)(1-f(x))F' (X)=(1+e−x _1)'=1+e−x _1( 11+e−x _1)=f ( x ) ( 1f ( x ))

quand x = 0 x=0X=Lorsque 0 ,f (x) ′ = 0,25 f(x)'=0,25f ( x )'=0,25 .

Avantages du Sigmoïde :

  1. lisse
  2. Facile à dériver
  3. Elle peut être utilisée comme probabilité pour aider à expliquer les résultats de sortie du modèle.

Inconvénients du sigmoïde :

  1. Lorsque les données d'entrée sont grandes ou petites, le gradient de la fonction est presque proche de 0, ce qui est très préjudiciable à l'apprentissage du réseau de neurones en rétropropagation.
  2. La valeur moyenne de la fonction sigmoïde n'est pas 0, ce qui provoque uniquement un retour entièrement positif ou entièrement négatif pendant le processus de formation du réseau neuronal.
  3. La valeur dérivée est toujours inférieure à 1 et la rétropropagation peut facilement faire disparaître le gradient.

Diagramme schématique du dérivé sigmoïde, le gradient des deux côtés est presque 0

Fonction d'activation Tanh

La fonction Tanh est définie comme :

f ( x ) = T anh ( x ) = ex − e − xex + e − xf(x) = Tanh(x) = \frac{e^x - e^{-x}}{e^x + e^ {-X}}f ( x )=Le ( x ) _=eX+e−x _eXe−x _

Comme le montre la figure ci-dessous, la plage de valeurs est ( − 1 , 1 ) (-1,1)( 1 ,1 ) .

Avantages de Tanh :

  1. La fonction Tanh compresse les données dans la plage de -1 à 1, résolvant le problème selon lequel la valeur moyenne de la fonction sigmoïde n'est pas 0, donc en pratique, la fonction Tanh est généralement plus facile à converger que la fonction sigmoïde. Sous forme mathématique, Tanh n'est en fait qu'une forme d'échelle du sigmoïde. La formule est tanh (x) = 2 f (2 x) − 1 tanh(x) = 2f(2x) -1le ( x ) _=2f ( 2x ) _ _1f ( x ) f(x)f ( x ) est la fonction du Sigmoïde).
  2. lisse
  3. Facile à dériver

Dérivé de Tanh :

f ′ ( x ) = ( ex − e − xex + e − x ) ′ = 1 − ( tanh ( x ) ) 2 f^{'}(x)=(\frac{e^x - e^{-x }}{e^x + e^{-x}})^{'}=1-(tanh(x))^2F' (X)=(eX+e−x _eXe−x _)'=1( le ( x ) ) _2

quand x = 0 x=0X=Quand 0 ,f (x) ′ = 1 f(x)'=1f ( x )'=1 .

On peut également voir à partir des dérivées de Tanh et Sigmoïde que la dérivée de Tanh est plus raide et que la vitesse de convergence est plus rapide que celle de Sigmoïde.

Diagramme dérivé de Tanh

Inconvénients du Tanh :

La valeur dérivée est toujours inférieure à 1 et la rétropropagation peut facilement faire disparaître le gradient.

Fonction d'activation Relu

La fonction d'activation Relu est définie comme :

f ( x ) = max ( 0 , x ) f(x) = max(0, x)f ( x )=maximum ( 0 , _X )

Comme le montre la figure ci-dessous, la plage de valeurs est [ 0 , + ∞ ) [0,+∞)[ 0 ,+ )

Avantages de ReLU :

  1. La formule de calcul est très simple, elle n'implique pas d'opérations exponentielles plus coûteuses comme les deux fonctions d'activation présentées ci-dessus, ce qui permet de gagner beaucoup de temps de calcul.
  2. En descente de gradient stochastique, il est plus facile de faire converger le réseau que Sigmoïde et Tanh.
  3. Lorsque ReLU entre dans la moitié négative de la zone, le gradient est de 0. À ce moment-là, les neurones seront entraînés à former une suppression unilatérale, ce qui entraînera une parcimonie, qui permettra d'extraire mieux et plus rapidement les caractéristiques clairsemées.
  4. Les gradients des dérivées des fonctions d'activation Sigmoïde et Tanh dans les zones de saturation positive et négative seront proches de 0, ce qui fera disparaître le gradient, tandis que la partie de la fonction ReLU supérieure à 0 est une constante pour garder le gradient de s'atténuer et ne fera pas disparaître le gradient.

Sparse : Dans les réseaux de neurones, cela signifie que la matrice d'activation contient de nombreux zéros. Que nous apporte cette performance éparse ? Cela se traduit par une plus grande efficacité en termes de complexité temporelle et spatiale, nécessitant moins d'espace pour les valeurs constantes et des coûts de calcul inférieurs.

Dérivé de ReLU :

c ( u ) = { 0 , x < 0 1 , x > 0 non défini , x = 0 c(u)=\begin{cases} 0,x<0 \\ 1,x>0 \\ non défini,x=0 \fin{cas}c ( tu )= 0 ,X<01 ,X>0indéfini , _ _ _ _ _ _ _X=0

Habituellement x = 0 x=0X=0 , étant donné que sa dérivée est1 11 et0 00 .

Dérivé de ReLU

Inconvénients de ReLU :

  1. L'entraînement peut avoir pour conséquence que certains neurones ne soient jamais mis à jour. L'une des améliorations de la fonction ReLU est LeakyReLU.
  2. ReLU ne peut pas éviter le problème de l'explosion du gradient.

Fonction d'activation LeakyReLU

La fonction d'activation de LeakyReLU est définie comme :

f ( x ) = { hache , x < 0 x , x ≥ 0 f(x) = \left\{ \begin{aligned} hache, \quad x<0 \\ x, \quad x\ge0 \end{aligned } \droite.f ( x )={ un x ,X<0X ,X0

Comme le montre la figure ci-dessous ( a = 0,5 a = 0,5un=0,5 ), la plage de valeurs est( − ∞ , + ∞ ) (-∞,+∞)( ,+ )

Avantages de LeakyReLU :

La différence entre cette méthode et ReLU est que xxLorsque x est inférieur à 0,f (x) = axf(x) = axf ( x )=a x , dans lequelaaa est une très petite pente (disons 0,01). De telles améliorations peuvent apporterxxLorsque x est inférieur à 0, cela ne provoquera pas de phénomène de disparition du gradient lors de la rétro-propagation.

Inconvénients de LeakyReLU :

  1. Le problème des gradients explosifs ne peut être évité.
  2. Le réseau neuronal n'apprend pas α \alphavaleur α .
  3. Lors de la dérivation de la dérivée, les deux parties sont linéaires.

Fonction d'activation SoftPlus

La fonction d'activation SoftPlus est définie comme :

f ( x ) = ln ( 1 + ex ) f(x) = ln ( 1 + e^x)f ( x )=l n ( 1+eX )

La plage de valeurs est ( 0 , + ∞ ) (0,+∞)( 0 ,+ )

L'image de la fonction est la suivante :

SoftPlus peut être considéré comme le lissage de ReLU.

Fonction d'activation ELU

La fonction d'activation ELU résout certains problèmes de ReLU tout en conservant quelques bons aspects. Cette fonction d'activation nécessite de sélectionner un α \alphaValeur α , sa valeur commune est comprise entre 0,1 et 0,3.

La définition de la fonction ressemble à ceci :

f ( x ) = { a ( ex − 1 ) , x < 0 x , x ≥ 0 f(x) = \left\{ \begin{aligned} a(e^x -1), \quad x<0 \ \ x, \quad x\ge0 \end{aligned} \right.f ( x )={ doigt de piedX1 ) ,X<0X ,X0

Si nous entrons xxLa valeur x est supérieure à0 00 , le résultat est le même que ReLU, c'est-à-direyyLa valeur y est égale àxxvaleur x ; mais si l’entréexxLa valeur x est inférieure à0 00 , alors nous obtiendrons un légèrement plus petit que0 0La valeur de 0 , le résultatyyLa valeur y dépend de l'entréexxvaleur de x , mais aussi prendre en compte le paramètreα \alphaα - Ce paramètre peut être ajusté selon les besoins. La formule introduit en outre l'opération exponentielleexe^xex , donc le coût de calcul d'ELU est supérieur à celui de ReLU.

α \alpha est donné ci-dessousGraphique de la fonction ELU lorsque la valeur α est de 0,2 :

Graphique de la fonction ELU

Dérivé de ELU :

Formule dérivée d'ELU

Le tracé dérivé ressemble à ceci :

Graphique dérivé d'ELU

Avantages de l'ELU :

  1. Cela peut éviter la situation dans laquelle certains neurones de ReLU ne peuvent pas être mis à jour.
  2. Peut obtenir une sortie de valeur négative.

Inconvénients de l'ELU :

  1. Contient des opérations exponentielles et prend beaucoup de temps à calculer.
  2. Il n’y a aucun moyen d’éviter le problème de l’explosion du gradient.
  3. Le réseau neuronal ne peut pas apprendre α \alphavaleur α .

Je suppose que tu aimes

Origine blog.csdn.net/weixin_51390582/article/details/135124596
conseillé
Classement