Углубленное понимание глубокого обучения — регуляризация (Regularization): Бэггинг и другие методы интеграции

Категория: Общий каталог "Глубокое понимание глубокого обучения"
Статьи по теме: Обучение
ансамблем : базовые знания
Обучение ансамблем : Алгоритмы повышения и Adaboost
Обучение ансамблем : Регуляризация бэггинга : Бэггинг и другие методы ансамбля


Бэггинг (Bootstrap Aggregating) — это метод уменьшения ошибки обобщения путем объединения нескольких моделей (Breiman, 1994). Основная идея состоит в том, чтобы обучить несколько разных моделей по отдельности, а затем позволить всем моделям голосовать за вывод тестового примера. Это пример распространенной стратегии машинного обучения, известной как усреднение модели. Методы, использующие эту стратегию, известны как ансамблевые методы. Причина, по которой усреднение моделей работает, заключается в том, что разные модели обычно не дают одинаковых ошибок на тестовом наборе.

Предположим, у нас есть ккk регрессионные модели. Предположим, что ошибка каждой модели на каждом примере равнаϵ i \epsilon_iϵя, эта ошибка подчиняется нулевой средней дисперсии, поскольку E [ϵ i 2 ] = v E[\epsilon_i^2]=vЕ [ ϵя2]"="v и ковариацияE [ ϵ i ϵ j ] = c E[\epsilon_i\epsilon_j]=cЕ [ ϵяϵдж]"="Многомерное нормальное распределение c . Ошибка, полученная средним прогнозом всех интегрированных моделей, составляет1 k ∑ i ϵ i \frac{1}{k}\sum_i\epsilon_iк1яϵя. Математическое ожидание квадрата ошибки предиктора ансамбля
: ]=\ frac{1}{k}v + \frac{k - 1}{k}cЭ [(к1яϵя)2 ]"="к1в+кк1с

Ошибки идеально коррелированы, т.е. c = vc = vс"="В случае v среднеквадратическая ошибка уменьшается доvvv , поэтому усреднение модели не помогает. Ошибка совершенно не имеет значения, т.е.c = 0 c = 0с"="В случае 0 математическое ожидание интегральной квадратичной ошибки составляет всего1 kv \frac{1}{k}vк1в . Это означает, что ожидаемая квадратичная ошибка ансамбля линейно уменьшается с размером ансамбля. Другими словами, ансамбль в среднем работает не хуже, чем любой из его участников, и если ошибки участников независимы, ансамбль будет работать значительно лучше, чем его участники. Различные ансамблевые методы строят ансамблевые модели по-разному. Например, каждого члена ансамбля можно обучить как совершенно другую модель, используя другой алгоритм и целевую функцию. Бэггинг — это метод, который позволяет многократно использовать одну и ту же модель, алгоритм обучения и целевую функцию.

В частности, Бэггинг включает в себя построение kkk различных наборов данных. Каждый набор данных состоит из повторяющихся выборок из исходного набора данных с тем же количеством выборок, что и исходный набор данных. Это означает, что в каждом наборе данных с большой вероятностью отсутствуют некоторые примеры из исходного набора данных, а также содержится несколько повторяющихся примеров (если результирующий обучающий набор имеет тот же размер, что и исходный набор данных, то результирующий набор данных имеет около 2 3\ дробь {2} {3}32пример). модель IIя в наборе данныхIIЯ тренируюсь на нем. Различия в выборках, содержащихся в каждом наборе данных, приводят к различиям между обученными моделями.

Нейронные сети могут найти достаточно разных решений, чтобы извлечь выгоду из усреднения моделей (даже если все модели обучаются на одном и том же наборе данных). Различий в случайной инициализации в нейронных сетях, случайного выбора мини-пакетов, различий в гиперпараметрах или недетерминированной реализации разных выходов часто бывает достаточно, чтобы позволить различным членам ансамбля иметь частично независимые ошибки.

Усреднение модели — очень мощный и надежный способ уменьшить ошибку обобщения. Его использование обычно не рекомендуется при использовании в качестве эталона для алгоритмов в научных статьях, поскольку любой алгоритм машинного обучения может существенно выиграть от усреднения модели (за счет увеличения объема вычислений и хранения). Алгоритм-победитель в соревнованиях по машинному обучению обычно использует среднее значение нескольких десятков моделей. Недавний
яркий пример — Гран-при Netflix. Не все методы построения ансамблей предназначены для того, чтобы сделать модель ансамбля более упорядоченной, чем единую модель. Например, метод под названием Boosting строит ансамблевые модели с большей емкостью, чем отдельные модели. Повышение было применено для создания ансамблей нейронных сетей путем постепенного добавления нейронных сетей в ансамбль. Повышение также может интерпретировать одну нейронную сеть как ансамбль, постепенно увеличивая скрытые единицы нейронной сети.

Ссылки:
[1] Lecun Y, Bengio Y, Hinton G. Глубокое обучение [J]. Nature, 2015
[2] Астон Чжан, Зак С. Липтон, Му Ли, Алекс Дж. Смола. Погрузитесь в глубокое обучение[J]. препринт arXiv arXiv: 2106.11342,

Guess you like

Origin blog.csdn.net/hy592070616/article/details/130934921