드롭 아웃에 대한 심층 이해

원본 링크 : https://blog.csdn.net/xinzhangyanxiang/article/details/49022443
注意:图片都在github上放着,如果刷不开的话,可以考虑翻墙。
转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/49022443

  
  
  • 1

밍 이순신 개구는 강하가 일시적으로 네트워크로부터 드롭 일정한 확률에 따른 뉴럴 네트워크 유닛, 깊이 학습 네트워크를 훈련 과정을 의미한다. 임의로 폐기, 따라서 각각의 서로 다른 네트워크에있는 미니 배치 훈련하기 때문에, 확률 그라데이션 하강을 위해, 일시적으로 그렇게합니다.

CNN은 유효 아직 논란을 과도하게 드롭 아웃은 효율성을 향상 피팅 빅 킬에 방지, 그런데 왜. 두 개의 서로 다른 관점을 대표하는 다음 두 대표 논문을 읽고, 모두가 공유하고 싶습니다.

결합 학교

보기에서 언급 한 첫 번째 기사, 노인이 힌튼, 나는 세부 사항으로 가지 않을 것이다 커뮤니티, 바로이 위치에 대한 깊이 학습 힌튼 위치가 제시, 생각의이 학교는 것으로 추정 "우당 소림은"이었다. 나 자신의 이름을 보내, 당신이 웃지 않아도됩니다.

전망

신경 네트워크 문제에서 용지가 단계적으로 왜 올바른 설명을 탈락 연결됩니다. 대규모 신경망 두 가지 단점이 있습니다 :

  • 시간이 걸리는
  • 쉬운 지나치게 피팅하기

이 두 가지 단점은 정말, 두 개의 큰 부담 양쪽의 깊이 연구에서 허벅지를 잡고 서로 아닌 양 맞는 냄새를 보완합니다. 기계 학습은 일반적인 문제는, 오버 피팅 모델은 기본적으로하고 그것을 스크랩 한 오버 피팅의 많은입니다. 일반적으로 여러 모델의 조합을 수행하는 훈련 앙상블 접근 방식을 사용하여, 피팅 과잉의 문제를 해결하기 위해,이 시간이, 시간이 그것이 큰 문제가되고있다뿐만 아니라 많은 시간이 소요, 교육을 그들에게 여러 모델을 테스트도 매우 많은 시간이 소요됩니다. 즉, 거의 교착 상태를 형성한다.

좋은 드롭 아웃 출현이 문제를 해결할 수 있습니다, 각각에서 더 원래 네트워크 찾을 드롭 아웃, 해당 완료 아래와 같이 네트워크를 :

img1로

따라서, 상기 결락 N 노드 뉴럴 네트워크를 들면, 2로 알 수있는 N- 형 모델의 컬렉션하지만 이때 훈련 파라미터 수 있지만, 시간이 걸리는 구호 인 일정 문제.

동기 부여

직관적으로 드롭 아웃 앙상블 분류 성능에 근사하지만, 실제로는, 드롭 아웃은 결국 신경 네트워크에 만든 전용 모델의 파라미터 세트를 훈련 있지만. 왜 그는 마지막에 효과적이다? 동기에 대한 분석이. 종이, 동기 부여 드롭 아웃 저자는 아주 멋진 비유를했다 :

성격에서 큰 동물, 일반적으로 유성 생식에서 유성 생식은 유전자 자손을 의미 양측에서 각 부모의 절반을 상속합니다. 그러나 직관적으로, 무성 생식이 좋은 유전자를 큰 세그먼트의 큰 부분을 유지할 수 있기 때문에 무성 생식이 더 합리적인 것 같다. 유전자 성 랜덤 재생이 철거 철거한다 조인트 적응 유전자의 많은 부분이 파괴.

그러나 결국 자연 선택은 무성 생식과 유성 생식의 선택, 자연 선택 지침, 적자 생존을 선택하지 않았습니다. 우리는 가설을, 그것은 유전자의 힘은 단일 유전자의 능력보다는 혼합 할 수있는 기능입니다. 이 성적이나 무성 생식인지이 가정을 따르도록했다. 그 유성 생식이 강한 증명하기 위해, 우리는 지식을 배울 수있는 작은 확률 봐.

예를 들어, 두 가지 방법으로, 테러 공격에 관여 :
- 중앙 50명 50 사람들은 노동의 정확한 구분을 닫습니다 큰 폭발에 참여합니다.
- 50 원하는 사람들이 오명의 10 개 그룹으로 나누어, 단지 어떤 행동을 지적에도 성공하면 한 번에 별도로 역할을합니다.

어떤 성공의 확률이 상대적으로 큰입니까? 분명 후자. 게릴라 전쟁에 대규모 팀 전투 때문입니다.

그래서 비유를 온, 유성 생식 방법뿐만 아니라 그것은 또한 적응성의 큰 덩어리와 결합 된 복잡한 유전자를 만드는 유전자 사이에 적응 공동을 줄일 수 있습니다, 좋은 유전자를 전달할 수있는 작은 조각으로 하나씩 작아 미국 적응성 유전자.

강하가 동일한 효과를 얻을 수 있으며, 이는 랜덤하게 양호한 결과를 달성하기 위해 함께 작동에서 선택되는 신경 세포, 신경 세포 등의 강제. 뉴런 노드의 적응성의 접합부를 약화 제거하고 일반화 능력을 향상시킨다.

개인 애드온이 : 그들의 생활 환경의 변화 무성 생식을 이용하여 식물과 미생물의 대부분은 매우 작고, 따라서 새로운 환경에 적응하기 너무 강한 능력을 필요로하지 않습니다, 그것은 현재의 환경에 적응하는 유전자의 큰 덩어리를 유지하는 것이 가장 좋습니다 충분하다 가. 높은 동물, 소형으로 유전자의 적응성 가입 할 생존 확률을 높일 수있는 새로운 환경에 적응하도록 준비하기 위하여, 동일하지 않다.

모델 변경 드롭 아웃을 가져

드롭 아웃, 교육, 특성 앙상블을 달성하기 위해 신경 네트워크를 예측하는 것은 일부 변경 될 것입니다 위하여.

  • 교육 수준

필연적으로, 각 단위 교육 네트워크는 확률 과정을 추가 할 수 있습니다.
IMG2

다음 다음 화학식의 변화에 ​​대응 :

  • 어떤 드롭 아웃 신경망 없습니다
    img3
  • 신경 네트워크가 드롭 아웃
    img4
  • 시험 수준

  • 각 셀의 파라미터 P에 의해 미리 곱해질 때 그 예측.
    img5

    기술 포인트의 다른 논문

    • 오버 피팅 방지 :

    • 조기 종료 (때 유효성 검사 설정에 변화의 효과)
    • L1 및 L2 정규화 가중치
    • 부드러운 무게 공유
    • 드롭 아웃
  • 드롭 아웃 속도를 선택

    • 교차 검증 숨겨진 노드 강하 속도는 0.5과 동일하면 때 최상의 결과는 0.5 강하는 임의로 생성 된 네트워크 구조 때문이다.
    • 전압 강하는 또한 노이즈 가산 입력에 직접 동작하는 방법으로 사용될 수있다. 입력 층은 숫자 1에 가깝다. 입력이 (0.8)를 크게 변경하지 않도록
  • 교육 과정

    • 구면 (최대 정규화)에 대한 제한 w 파라미터들의 훈련은 강하 훈련에 유용하다.
    • C는 조정되어야하는 구면 파라미터의 반경이다. 검증 세트 튜닝 매개 변수를 사용할 수있다
    • 드롭 아웃 자신의 가축하지만 드롭 아웃, 최대-정상화, 큰 부패의 학습 속도와 높은 모멘텀이 더 잘 결합하지만, 최대 규범의 정규화 등의 매개 변수를 날려 결과 큰 학습 속도를 방지 할 수 있습니다.
    • 使用pretraining方法也可以帮助dropout训练参数,在使用dropout时,要将所有参数都乘以1/p。
  • 部分实验结论

  • 该论文的实验部分很丰富,有大量的评测数据。

    • maxout 神经网络中得另一种方法,Cifar-10上超越dropout

    • 文本分类上,dropout效果提升有限,分析原因可能是Reuters-RCV1数据量足够大,过拟合并不是模型的主要问题

    • dropout与其他standerd regularizers的对比
      • L2 weight decay
      • lasso
      • KL-sparsity
      • max-norm regularization
      • dropout
    • 特征学习
      • 标准神经网络,节点之间的相关性使得他们可以合作去fix其他节点中得噪声,但这些合作并不能在unseen data上泛化,于是,过拟合,dropout破坏了这种相关性。在autoencoder上,有dropout的算法更能学习有意义的特征(不过只能从直观上,不能量化)。
      • 产生的向量具有稀疏性。
      • 保持隐含节点数目不变,dropout率变化;保持激活的隐节点数目不变,隐节点数目变化。
    • 数据量小的时候,dropout效果不好,数据量大了,dropout效果好
    • 模型均值预测

    • 使用weight-scaling来做预测的均值化
    • 使用mente-carlo方法来做预测。即对每个样本根据dropout率先sample出来k个net,然后做预测,k越大,效果越好。
  • Multiplicative Gaussian Noise
    使用高斯分布的dropout而不是伯努利模型dropout

  • dropout的缺点就在于训练时间是没有dropout网络的2-3倍。
  • 进一步需要了解的知识点

    • dropout RBM
    • Marginalizing Dropout
      具体来说就是将随机化的dropout变为确定性的,比如对于Logistic回归,其dropout相当于加了一个正则化项。
    • Bayesian neural network对稀疏数据特别有用,比如medical diagnosis, genetics, drug discovery and other computational biology applications

    噪声派

    参考文献中第二篇论文中得观点,也很强有力。

    观点

    观点十分明确,就是对于每一个dropout后的网络,进行训练时,相当于做了Data Augmentation,因为,总可以找到一个样本,使得在原始的网络上也能达到dropout单元后的效果。 比如,对于某一层,dropout一些单元后,形成的结果是(1.5,0,2.5,0,1,2,0),其中0是被drop的单元,那么总能找到一个样本,使得结果也是如此。这样,每一次dropout其实都相当于增加了样本。

    稀疏性

    知识点A

    首先,先了解一个知识点:

    When the data points belonging to a particular class are distributed along a linear manifold, or sub-space, of the input space, it is enough to learn a single set of features which can span the entire manifold. But when the data is distributed along a highly non-linear and discontinuous manifold, the best way to represent such a distribution is to learn features which can explicitly represent small local regions of the input space, effectively “tiling” the space to define non-linear decision boundaries.

    大致含义就是:
    在线性空间中,学习一个整个空间的特征集合是足够的,但是当数据分布在非线性不连续的空间中得时候,则学习局部空间的特征集合会比较好。

    知识点B

    假设有一堆数据,这些数据由M个不同的非连续性簇表示,给定K个数据。那么一个有效的特征表示是将输入的每个簇映射为特征以后,簇之间的重叠度最低。使用A来表示每个簇的特征表示中激活的维度集合。重叠度是指两个不同的簇的Ai和Aj之间的Jaccard相似度最小,那么:

    • 当K足够大时,即便A也很大,也可以学习到最小的重叠度
    • 当K小M大时,学习到最小的重叠度的方法就是减小A的大小,也就是稀疏性。

    上述的解释可能是有点太专业化,比较拗口。主旨意思是这样,我们要把不同的类别区分出来,就要是学习到的特征区分度比较大,在数据量足够的情况下不会发生过拟合的行为,不用担心。但当数据量小的时候,可以通过稀疏性,来增加特征的区分度。

    因而有意思的假设来了,使用了dropout后,相当于得到更多的局部簇,同等的数据下,簇变多了,因而为了使区分性变大,就使得稀疏性变大。

    为了验证这个数据,论文还做了一个实验,如下图:

    img6

    该实验使用了一个模拟数据,即在一个圆上,有15000个点,将这个圆分为若干个弧,在一个弧上的属于同一个类,一共10个类,即不同的弧也可能属于同一个类。改变弧的大小,就可以使属于同一类的弧变多。

    实验结论就是当弧长变大时,簇数目变少,稀疏度变低。与假设相符合。

    个人观点:该假设不仅仅解释了dropout何以导致稀疏性,还解释了dropout因为使局部簇的更加显露出来,而根据知识点A可得,使局部簇显露出来是dropout能防止过拟合的原因,而稀疏性只是其外在表现。

    论文中的其他技术知识点

    • 将dropout映射回得样本训练一个完整的网络,可以达到dropout的效果。
    • dropout由固定值变为一个区间,可以提高效果
    • 将dropout后的表示映射回输入空间时,并不能找到一个样本x*使得所有层都能满足dropout的结果,但可以为每一层都找到一个样本,这样,对于每一个dropout,都可以找到一组样本可以模拟结果。
    • dropout对应的还有一个dropConnect,公式如下:

    • dropout

    img7

  • dropConnect

  • img8

  • 试验中,纯二值化的特征的效果也非常好,说明了稀疏表示在进行空间分区的假设是成立的,一个特征是否被激活表示该样本是否在一个子空间中。
  • 参考文献

    [1]. 스리 바스타 N, 힌튼 G, Krizhevsky A, 등. 드롭 아웃 [J]를 overfitting에서 신경망을 방지하는 간단한 방법. 기계 학습 연구, 2014 년 저널, 15 (1) : 1929에서 1958 사이.

    [2]. 데이터 증가로 드롭 아웃. http://arxiv.org/abs/1506.08700

    면책 조항 :이 문서는 블로거 원본입니다, 추적 에 의해-SA의 CC 4.0 저작권 계약, 복제, 원본 소스 링크이 문을 첨부 해주세요.
    이 링크 : https://blog.csdn.net/xinzhangyanxiang/article/details/49022443

    이해 드롭 아웃

    추천

    출처blog.csdn.net/sunhua93/article/details/102765050