정보 이론 및 수학적 통계 - 기계 학습 기반

첫째, 정보 이론

정보 이론은 객관적인 세계의 불확실성을 다루고있다.
통신의 기본적인 문제는 이제 메시지의 또 다른 선택 점의 약 또는 정확히 두 배입니다.
삶에서, 정보 매체는 메시지입니다. 직관적 인 느낌에 가져온 정보를 다른 메시지는 정보의 "GET 오르세 슈워제네거 보디 빌딩 챔피언"보다 "엄마는 오르세 보디 빌딩 챔피언을 얻을"더 큰 정확하게, 같은 같은하지 않습니다.
전자는 우리가 익숙해 작은 확률 이벤트이기 때문입니다. 큰 정보량 큰 제공된 메시지의 불확실성.

엔트로피

내부 혼란의 시스템

근원

메시지 (기호), 연속 메시지의 메시지 시퀀스의 소스를 생성.

정보

정보의 양의 측정
사건 A의 발생 확률 경우, 정보 이론에 \ (P- 형 (A)은 \) ,이 이벤트 정보의 양으로 정의된다
\ (H (A) = -
log_2p (A) \) 예 : 때 \ (P (a \)은 경우), 1/1000 (10)에 대한 정보를 얻을 \ (p는 (a) \) 1 1/2에 관하여 획득 된 정보의 양이

엔트로피

엔트로피 소스 이루어진 확률 공간에 발행 될 수있다 각 소스 기호 정보의 통계적 평균 시간이다.
단일 이벤트로부터 원본 정보의 엔트로피는 각 심볼을 산출 포함 할
경우, 개별 정보 소스 X를 포함하는 N 개의 심볼, 각 기호는 \ (A_I \) 값을 \ (P (A_I) \) , 소스의 상기 X 엔트로피
\ (H (X) = - \ sum_ I = {1} ^ NP (A_I) log_2p (A_I) \)

조건부 엔트로피

조건부 확률 이론의 개념에서, 조건부 확률은 정보 이론으로 확장 될 것입니다, 당신은 조건부 엔트로피를 얻을 수 있습니다.
공지 된 조건 하에서 두 개의 채널 소스 간 상관 관계되는 X의 소스, 다른 소스 엔트로피 감소 될 경우.
조건부 엔트로피 \ (H (Y | X)는 \) 랜덤 변수가 알려져 나타내는 \ (X- \) 다른 랜덤 변수의 조건 (\는 Y \) 불확실성이 주어진다 (\ X- \) 에있어서, \합니다 (Y \) 조건부 확률 다시 엔트로피 산출 \ (X- \) 찾을 수학적 기대

$ H (Y | X) = \ sum_ {I = 1} ^ NP (x_i로부터) H (Y | X = x_i로부터) $

\ (= - \ sum_ I = {1} ^ NP (x_i로부터) \ sum_ J = {1} ^ MP (y_i | x_i로부터) log_2p (y_i | x_i로부터) \)

\ (= - \ sum_ I = {1} ^ n \ sum_ J = {1} ^ NP (x_i로부터, y_i) log_2p (y_j | x_i로부터) \)

에 따른 조건부 엔트로피 변수 즉 (X- \) \ 트리에서 변수 Y의 값은, 각각의 개별 서브 - 아웃 유형의 각 클래스의 그 엔트로피를 계산 엔트로피 \ (X- \) 수학적 기대를 분산 컴퓨팅.

정보 이득

기계 학습에서, 정보 이득은 상호 정보로 알려진, 종종 기능 선택 분류, 정보의 양을 가지고 기능을 설명합니다

信息增益=信息熵-条件熵

확률 변수가 있다고 가정 \ (X 축 \) 및 다른 랜덤 변수 \합니다 (Y-가 \) , 그 자신의 정보는 이득

\ (I (X, Y) = H (Y) -H (Y | X) \)

Y는 X에 이득 정보를 가져 오는 것으로 이해 될 수있다.
주어진 트레이닝 데이터 세트에 대한 \합니다 (Y- \) \ (H합니다 (Y-)는 \) 트레이닝 세트 분류 불확실성의 어떤 기능을 부여하지 않는 경우를 나타내는
\ (H (Y가 | X) \) 나타내고 특성의 사용 \ (X \) 트레이닝 세트 \ (Y \) 분류 불확실성.
정보 게인 특성을 나타내고, \ (X \) 트레이닝 세트를 가져 \ (Y \) 분류 불확실성 감소의 정도, 즉 상기 \ (X- \) 트레이닝 세트 \합니다 (Y \) 미분 가능성.

정보 이득 비율

정보 이득 값은 데이터 세트의 정보 엔트로피에 크게 의존 \ (H합니다 (Y-) \) 절대적인 의미없는 따라서하고. 이 문제를 해결하기 위해, 연구진은 제안 정보 이득 비율

\ (g (X, Y) = I (X, Y) / H (Y) \)

상대 엔트로피

또한, 두 개의 서로 다른 확률 분포의 차이를 설명하기 위해, 상대 엔트로피 KL 발산라고도.

\ (D_ {} KL (P ||는 Q) = \ sum_ {I = 1} ^ NP (x_i로부터) log_2 \ FRAC {P (x_i로부터)} {Q (x_i로부터)} \)

상대 엔트로피 기초하여 측정한다 (\ P \) 부호화에서 부호화 \ (Q \) 에 필요한 시료의 평균 비트 수를 추가.

최대 엔트로피 원리

지식의 일부분 만이 알 수없는 분포를 마스터 할 때,이 지식하지만 가장 큰 엔트로피 확률 분포에 맞춰 선택해야합니다.
최대 엔트로피 원리는 알려진 전제를 충족하기 위해 지식의 본질이되어야 알 수없는 배포를위한 가장 공정한 옵션 중 하나를 대신하여 최종 분포있는 유일한 방법입니다 가장 확실 또는 이후 대부분의 무작위 분포.

정보 이론은 불확실성과 정보 세계 건립 사이의 단일 소스에서 정보 통신의 해석과 확장 성을 만들기 위해 "정보 엔트로피 ', 숫자 및 정보 전송 및 기타 문제의 효율성의 개념을 사용 다리

둘째, 수학 통계

샘플을 기반으로 수학 통계 (수학 통계)의 임무는의 전반적인 성격 추론 차례로 관찰 할 수있다
유추 도구 统计量, 통계는 样本的函数,이다 随机变量
이 연구의 목적 관찰 또는 실험 무작위 현상을 얻은 정보에 기초하고 연구하는 수학 통계, 법은 합리적인 추정과 판단을 할 수 있습니다.
통계 이론 알고리즘의 도움을 학습 시스템을 기반으로 데이터의 가치를 반영 할 수 있도록 데이터 마이닝, 단지 합리적인 설명의 결과를 설명합니다.

일반화 : 모델이 샘플의 새로운 세트를 테스트하는 데 사용에 속하지 않는 능력에. 강한 일반화 능력, 더 나은 학습자

확률 이론의 차이점

지점을 찾을 확률 이론에서 수학적 통계는 전체 로컬 푸시입니다

  • 확률 분포 특성과 종래의 분포에 기초하여 확률 변수의 법칙을 분석하는 무작위 변수의 역할을하는 것으로 알려져있다 전제;
  • 통계 과목은 임의의 변수를 얻을 관찰의 원래 분포를 추정하는 연구가 반복 독립 확률 변수의 관찰이다, 알을 배포됩니다.
    수학 통계는 확률 이론의 역으로 볼 수있다, 더 이론적 인 관점에서 연구 방법론에 경사하고 적용하는 방법을 탐구

복권을 구입 예를 들어,

  • 이 솔루션은 알려진 확률 이론을 기반으로 摇奖规律승리 음표 번호를 결정하는 가능성
  • 수학적 통계 반복 승리 해결 / 비 경력 전에 추측의 정확도의 특정에 따라 기록 된 숫자 摇奖的规律, 그것은 쓸모 없을 수도있다.

통계적 추론 방법 : 매개 변수 추정

파라미터 추정 지점과 구간 추정 포함한 촬영 랜덤 샘플의 전체적인 분포의 미지 파라미터를 예측하기
* 점 추정 (점 추정)
구체적인 방법은 Monent (monents의 방법)을 포함하고, 최대 우도 추정법 (최대 우도 추정을 )
두 방법 인구 파라미터 추론 개념을 표현하지만, 동일한 파라미터에 대해, 다른 평가 방법에 의해 얻어진 추정 된 양은, 그것이 일관성 평가 일반적 편견 가능성 효과 차이이다되어
* 간격 (간격 추정) 예측
구간 예측 에러의 추가 마진을 제공하기 위해 대응하는 범위에 기초하여 상기 추정 된 포인트

통계적 추론 방법 : 가설 검증

수락하거나 촬영 무작위 샘플에 대한 전반적인 판단을 거부하려면

검출의 역할을 가정하면, 테스트 세트의 성능을 알고 그 일반화의 강도에 따라 추정하고, 결론의 정확한 정도를 상기 다른 학습 필터의 성능을 비교하기 위해 일반화 될 수 결정한다.

구성의 오류는 세 부분으로 일반화 될 수 있습니다 :

  • 편차 (바이어스)
    예측과 실제 결과 알고리즘 간의 편차의 정도, 내 모델의 단순성과의 초상화
  • 분산 (편차)
    교란 오버 피팅 모델의 세로의 성능 특성에 대한 데이터를 나타낼 것으로 예상된다
  • 노이즈 (잡음)
    , 최소 일반화의 오류 학습 작업에 도달하는 작업 자체의 어려움의 초상화를 현재를 나타냅니다

추천

출처www.cnblogs.com/chenqionghe/p/12575525.html