[제로] 역 전파 신경망의 기초를 이해하는

I. 서문

  가중치는 w 최적화하기위한 역 전파 신경망과 임계치 (B), 신경 네트워크 최적화의 핵심 알고리즘입니다. 공부 한 후 몇 일 마침내 반 전파의 원칙, 경험을 쓰고 여기에 기록 된 것으로 알고 있습니다.

  이 기사는 기본적인 수학 계산을 도입하고, 파라미터 최적화 유래 위로 전파 방법 "손실 계산식에 따르면".

둘째, 기본적인 수학 원리

  유도 체인 규칙 : B 법은 전파 콜백, 승 신경망 최적화 파라미터 이의 전달 방법은 "구배 하강」이라고 특정 실시 예에서, 하강 기울기는 두 개의 기본적인 연산을 포함한다.

  1) 유도

  다음 공식을 고려 :

  

  화학식 X의 유도체 :

  

 

   예 :

  

 

   2) 연쇄 법칙

  

 

   그 의미 예를 들어 x 및 y 유도체로 (Y)의 유도체의 유도로의 Z의 X, Z의 연쇄 법칙 :

  

 

   

 

  Z의 유도체, 예를 찾을

   

 

   을 감안할 때 :

  

 

  그래서 :

  

 

  의미 3) 수학적 도출

  

 

  [델타] × 약간은 Y 축 ΔY의 수를 증가시킴으로써 얻어 질 수 있다면 상기 한 바와 같이, X와 Y의 유도체 X0에서의 기울기를 결정 본질적, X0이 증가 될 것이다 :

  ΔY는 ΔX = * (X0에서의 기울기)

  y 값은 최소한의 경향이 우리가 원하는 경우에, 당신은 Y 마이너스 ΔY를 사용할 수 있습니다 :

  Y는 = Y0-는 ΔY = * (X0에서의 기울기) - Y0 ΔX

  Y0가 ΔX, X0의 기울기가 공지되며, 점차 최소 Y 값에 접근 할 수있다. 참고 ΔY 만 Y 축, 실제하지 증가량 근사하지만이 방법으로 "접근"Y의 최소값을 계속할 수 있습니다.

셋째, 손실 계산

  간단한 전파 기능을 고려 :

  Y = B + WX

  w는 가중치이고, B는 임계 값이고, X는 Y가 예측 된 출력 입력된다 우리 출력 할 실제 손실을 뺀 예측 출력 (차이 예측과 실제)

 

   실제로 우리는 파생 회귀 쉽게 제곱 차이로 오류를 제곱. 그냥 작업의 어려움, 제곱 오차의 사용 또는 본질적으로 차이 손실을 측정하지 오류를 줄일 수 있습니다.

 

  실제로 사용될 때, Y가 도입 실제로 상수 (라벨 값)는 전달 함수 (Y 프라임) = B + WX

  비용 = (WX + B - Y) ^ 2

 

넷째, 그라데이션 하강

  상기 화학식 손실을 참조가, 그것이 = X ^ 2 예로서 파라볼라 단순화 될 수 있는지 발견 할 것이다 :

 

  예측이 실제 결과를 확인하는 경향이 본질적으로는 제로 경향 Y 위의 그림이다 최소 비용을 찾는 것이다. 주의 할 점은 수식에 있습니다 :

  비용 = (WX + B - Y) ^ 2

  我们期望的是找到一个最佳的w和b来求得最小的Cost,其中x和Y其实都是已知的。所以我们是对w和b求导求得Δw和Δb。为便于计算,我们可以做以下变化:

  Cost = (Error)^2

  Error = wx+b-Y

  

 

   

 

   根据链式法则,我们就可以得到:

  

 

  所以Δw = 2*error*x

  类似地可以推导出Δb=2*error

  在实际使用时,error值、x值都是已知的所以我们可以求得Δw和Δb

 

   上述反向传播的实现代码中,img即是x,Y-label即是error,除以m是因为实际操作时是一次对m个图片进行处理,这里求dw、db时需要取平均值所以除以m。其次实际代码中我们把Δw = 2*error*x的常数2忽略了,对实际操作没有影响。

五、总结

  最后在优化参数时,我们会用Δw和Δb乘以一个非常小的浮点数如0.001称为步幅(learning rate),再用w-Δw、b-Δb。所以本质上来说Δw和Δb只是指明了梯度下降的方向,比如在下面的函数图形中,在x轴左侧应当增大x值,在x轴右侧则应该减小x值,我们通过斜率就可以知道具体应该减少还是增大了。

请关注公众号“零基础爱学习”一起AI学习。

 

추천

출처www.cnblogs.com/cation/p/11664741.html