Ли Ханг - статистические методы обучения - отмечает -4: Наивное Байеса

Наивный байесовский

Введение : теорема Байеса и наивная байесовская метода , где условные предположения независимости на основе классификации. Для данного набора данных обучения, совместная вероятность на основе первого входного распределения «характеристика состояния независимой» гипотеза обучения / вывода. Затем, на основе модели, для данного входного х, теорема Байеса метод по величине апостериорная вероятность у.

Наивный Байес простое, обучение и прогнозирование эффективности высоки, это широко используемый метод.

Основные методы : Наивный байесовский совместных вероятности метод распределения обучения по обучающим данным \ (Р (х-, у-) \) . В частности, исследование и априорное распределение вероятностей распределения условной вероятности, и научиться совместному распределению вероятностей.

Перед распределением вероятностей
\ [P (Y = c_k) , к = 1,2, ..., К \]

Условное распределение вероятностей
\ [P (X = х \ | \ Y = c_k) = P (X = (х ^ {(1)}, х ^ {(2)}, ..., х ^ {(п)} ) \ | \ Y = c_k) , к = 1,2, ..., K \]

В то время распределения условной вероятности имеет экспоненциальное число параметров, это не представляется возможным оценить фактические. Пусть \ (х ^ {(к) } \) может значения \ (S_j \) а, то число параметров \ (К \ prod_. 1} = {j} ^ {п-S_j \) .

Индивидуальные особенности предполагаются условие : Наивная байесовское предположение «особенность для классификации не зависит от условий в определенном классе.» Это сильное предположение, алгоритм делает его более легким (отсюда термин «простой»), но иногда за счет определенной точности классификации.
\ [\ {Начинают раскол} Р (Х = х \ | \ Y = c_k) & = Р (х ^ {(1)}, х ^ {(2)}, ..., х ^ {(п)} \ | \ Y = c_k) \\ & = \ prod_ {J = 1} ^ {п} Р (х ^ {(к)} = {х ^ (к)} \ | \ Y = c_k) \ {конец раскола } \]

Наивный байесовский классификатор

Теорема Байеса
\ [\ {начать раскол} P (Y | X) & = \ гидроразрыва {P (Y) \ P (X | Y)} {P (X)} \\ & = \ гидроразрыва {P (Y ) \ P (X | Y) } {\ sum_YP (У) \ Р (Х | У)} \ {конец раскола} \]

Классификация
при классификации, для заданного входного \ (X \) , путем вычисления апостериорной вероятности модели узнали распределения \ (P (Y - = C_K | Х = Х) \) , апостериорная вероятность большой класс , как \ ( Х \) является классом вывода.

\ [\ Начинаются {сплит} P (Y = c_k \ | \ Х = х) & = \ гидроразрыва {Р (Х = х \ | \ Y = c_k) \ P (Y = c_k)} {Р (Х = х )} \\ & = \ гидроразрыва {Р (х = х \ | \ Y = c_k) \ P (Y = c_k)} {\ sum_k Р (х = х \ | \ Y = c_k) \ P (Y = c_k )} \\ & = \ гидроразрыва {P (Y = c_k) \ \ prod_j Р (х ^ {(к)} = {х ^ (к)} | Y = c_k)} {\ sum_k P (Y = c_k) \ \ prod_j Р (х ^ {(к)} = {х ^ (к)} | Y = c_k)} \ {конец раскола} \]

Тогда наивный байесовский классификатор может быть выражена как
\ [у = F (х) = \ Arg \ max_ {c_k} P (Y = c_k | Х = х) \]

Примечание знаменатель для всех \ (C_K \) являются такими же, могут быть удалены, в конце концов:
\ [Y = \ Арг \ max_ C_K} {Р (Y - = C_K) \ prod_j Р (Х ^ {(J)} = Х ^ {(к)} | Y = c_k) \]

Оценка максимального правдоподобия

Оценка максимального правдоподобия : используя известные результаты выборки, реверсивного, скорее всего , значения параметров (наиболее вероятный) причина таких результатов это метод оценки параметров.

Наивный байесовский, обучение означает \ (P (Y = c_k) \) и \ (Р (Х ^ {(J)} = X ^ {(J)} | = C_K Y) \) .
Максимальное правдоподобие может быть использована для оценки соответствующей вероятности.
\ [P (Y = c_k) = \ гидроразрыва {\ sum_ {= 1} ^ {N} Я (y_i = c_k)} {N} \]

Первый набор \ (J \) функция \ (х ^ {(к) } \) могут быть установлены в значения \ (\ {а_ {j1} , {а_ j2}, ..., {а_ jS_j} \} \) .

\ [Р (Х ^ {(к)} = а_ {JL} \ | \ Y = c_k) = \ гидроразрыва {\ sum_ {= 1} ^ {N} I (x_i ^ {(к)} = A_ { JL}, y_i = c_k)} {\ sum_ {я = 1} ^ {N} Я (y_i = c_k)} \]

Байесовская оценка : оценка максимального правдоподобия вероятности может показаться, что расчетное значение , равным нуля. Тогда результаты будут влиять на вероятность задней, смещение классификации. Решение этой проблемы заключается в использовании байесовской оценки.

\ [P _ {\ Lambda} (Y = c_k) = \ гидроразрыва {\ sum_ {= 1} ^ {N} Я (y_i = c_k) + \ Lambda} {N + к \ лямбда} \]

\ [Р (Х ^ {(к)} = а_ {JL} \ | \ Y = c_k) = \ гидроразрыва {\ sum_ {= 1} ^ {N} I (x_i ^ {(к)} = A_ { JL}, y_i = c_k) + \ Lambda} {\ sum_ {я = 1} ^ {N} Я (y_i = c_k) + S_j \ Lambda} \]

\ (\ Lambda = 0 \) называется максимального правдоподобия, \ (\ =. 1 лямбда \) называется временем сглаживания Лапласа.

рекомендация

отwww.cnblogs.com/liaohuiqiang/p/10979742.html