Практический уровень для улучшения DNN (а) глубины обучения

1, L регуляризации слой нейронной сети:

(1) L2 регуляризации:

(2) Почему регуляризация, чтобы избежать чрезмерной подгонки?

Когда лямбда достаточно велико, J сведено к минимуму, так что матрица весов W будет близка к нулю, упрощенная нейронная сеть является состоянием высокого смещения:

лямбда было больше, чем вес, г = ш * а + б, г мала, чтобы функции TANH в качестве примера:

Когда г меньше ступени, функция г (г) близка к линейной. Если линейный подход каждый слой, сеть представляет собой линейную сеть, ситуация не будет соответствовать через.

(3) отсев регуляризации (случайная инактивация):

Каждый узел нейронной сети содержит вероятность деактивация р, следующим образом:

Упростить подключение, получить узел меньше, меньший масштаб сеть:

Коды являются следующими:

Для третьего слоя случайной инактивация, 0,8 keep_prob = (вероятность скрытого блока, чтобы сохранить, то есть, что исключает вероятность скрытого блока составляет 0,2), keep_prob различных слоев могут быть разными.

d3 = np.random.rand (a3.shape [0], a3.shape [1]) <keep_prob

а3 = np.multiply (а3, d3) # фильтруют инактивированный узел

а3 = а3 / keep_prob # составляют 20% от отфильтровывают, таким образом, что ожидаемое значение константы а3

(4) Другой метод регуляризации:

① расширить набор данных;

② досрочное прекращение итерации:

(5) Input регуляризации:

① с нулевым средним:

μ = 1 / м * Σx ^(я)

х = х - м

② дисперсии нормализации:

σ² = 1 / м * Σ (х ^(I) ) ²

х = х / с²

③ Почему вход регуляризация?

Non регуляризация может вызывать функции ввода изображения стоимости являются несколькими удлинены, а значения x1 до 1000, но только после 0-1. Регуляризаций входного значения x2, стоимостная функция выглядит более симметричными.