기계 학습 이론 및 전제 지식 소개

목차

1. 라그랑지안 함수

1. 평등 제한 최적화(예: llp)

1.1 합계 없음

1.2 유구화

2. 불평등 제약 최적화(예: svm)

3. 제약 없음(예: ls)

2. 규범

1. F 규범

2.l2 규범

3.l1 규범

4.l2,1 규범

3. 부분 안내

1. 경사하강법

2. 트레이스의 일반적인 정의 및 속성

4. 크로네커 제품


개요

머신러닝 이론 학습과 최적화 문제 도출에 필요한 다양한 사전지식을 기록하는 블로그입니다.


1. 라그랑지안 함수

최적화 문제에서는 최적화 문제와 방법의 제약조건을 구한 후 해당 라그랑지안 함수가 종종 요구되어 해결되는데, 다음은 여러 일반적인 상황에서의 라그랑지안 함수 구성 방법이다.

1. 평등 제한 최적화(예: llp)

1.1 합계 없음

\large \min _{\mathbf{a}} \mathbf{a}^{T} \mathbf{S a}, \quad \text { st } \mathbf{a}^{T} \mathbf{a}= 1

Lagrangian 함수를 다음과 같이 정의합니다.

\large L(\mathbf{a}, \lambda)=\mathbf{a}^{T} \mathbf{S a}+\lambda\left(1-\mathbf{a}^{T}\mathbf{a }\오른쪽)

해당 미지수(여기서는 α)에 대한 편도함수를 찾습니다.

\큰 \mathbf{S a}=\lambda \mathbf{a}

그런 다음 위 공식에 대한 고유 분해를 사용하여 원래 최적화 문제를 해결합니다.

1.2 유구화

2. 불평등 제약 최적화(예: svm)

\large \begin{배열}{l} \min _{\mathbf{u}} f_{0}(\mathbf{u}) \\ \text { st } f_{i}(\mathbf{u}) \ leq 0, i=1.2, \cdots, n \end{배열}

Lagrangian 함수를 다음과 같이 정의합니다.

\large L(\mathbf{u}, \boldsymbol{\alpha})=f_{0}(\mathbf{u})+\sum_{i=1}^{n} \alpha_{i} f_{i} (\mathbf{u})

해당 미지수에 대한 편도함수를 찾아 0으로 설정합니다.

3. 제약 없음(예: ls)

편도함수를 찾기 위해 미지수를 풀고 0으로 두어야 한다는 요구 사항에 직접적으로 해당합니다.

2. 규범

1. F 규범

F 놈은 행렬 놈입니다. A가 mxn 행렬이라고 가정하면 해당 F 놈은 다음과 같이 정의됩니다.

\large \|A\|_{F}=\sqrt{\연산자 이름{tr}\left(A^{T} A\right)}=\sqrt{\sum_{i, j} a_{ij}^{ 2}}

2.l2 규범

l2 놈은 "오류"를 측정하는 데 자주 사용되는 유클리드 거리입니다. 다음과 같이 정의됩니다.

\large \|x\|_{2}=\left(\left|\boldsymbol{x}_{1}\right|^{2}+\left|\boldsymbol{x}_{2}\right| ^{2}+\cdots+\left|\boldsymbol{x}_{\boldsymbol{n}}\right|^{2}\right)^{1 / 2}

행렬의 경우 l2 표준은 다음과 같이 정의됩니다.

\large \|A\|_{2}=\sqrt{\lambda_{\max }\left(A^{T} A\right)}

팁: 매개변수는 해당 최대 고유값의 절대값입니다.

3.l1 규범

l1 규범은 절대값의 합이며 다음과 같이 정의됩니다.

\large \|X\|_{1}=\left(\left|x_{1}\right|+\left|x_{2}\right|+\ldots+\left|x_{n}\right|\ 오른쪽)

4.l2,1 규범

l2,1 노름은 먼저 열별로 l2 노름을 찾은 다음 행별로 l1 노름을 찾는 것입니다. 이는 다음과 같이 정의됩니다.

\large \|W\|_{2,1}=\|w\|_{1}=\sum_{i=1}^{d} \sqrt{\sum_{j=1}^{n}\ 왼쪽|W_{i, j}\오른쪽|^{2}}

해당 D 행렬 정의, l2, 1 규범은 다음과 같이 다시 작성할 수 있습니다.

\large \|W\|_{2,1}=tr\left ( P^TDP \right )

여기서 D는 대각선 행렬이고 대각선은 1/행의 2노름의 제곱입니다.

3. 부분 안내

일반적으로 사용되는 행렬 추적의 편도함수는 다음과 같습니다.

\large \frac{\partial \연산자 이름{tr}\left(A^{T} X\right)}{\partial x_{ij}}=\frac{\partial \연산자 이름{tr}\left(X^{ T} A\right)}{\partial x_{ij}}=a_{ij}=[A]_{ij}

\large \frac{\partial \operatorname{tr}\left(X^{T} AX\right)}{\partial x_{ij}}=\sum_{q=1}^{m} a_{iq} x_ {qj}+\sum_{p=1}^{m} a_{pi} x_{pj}=\left[A X+A^{T} X\right]_{ij}

자세한 내용은 행렬의 프로베니우스 노름과 트레이스(trace)와 그 편미분 법칙의 관계_러브 라이프의 블로그를 참조해 주세요.

요약 및 상세설명: 행렬의 궤적과 궤적에 의한 행렬의 유도

1. 경사하강법

Gradient Descent 방법은 Iteration과 Optimization에서 일반적으로 사용되며, 계산 공식은 다음과 같이 해당 편도함수를 찾는 것으로 간단히 이해할 수 있습니다.

경사하강법의 목적은 가중치 매개변수 w를 지속적으로 업데이트하여 손실 함수 L의 값이 지속적으로 감소하도록 하는 것입니다. 

2. 트레이스의 일반적인 정의 및 속성

1.tr( AB ) = tr( BA )

2.tr( A ) = tr( A^ T)

3.tr( A + B ) = tr( A ) + tr( B )

4.tr( rA ) =  r  tr( A ) = tr(rA * I) (i는 항등 행렬임)

4. 크로네커 제품

Kronecker 곱은 모든 크기의 두 행렬 간의 연산이며 결과는 로 표시되는 행렬입니다 . Kronecker 제품은 다음과 같은 특별한 형태의 텐서 제품 입니다.

추천

출처blog.csdn.net/weixin_51426083/article/details/125156679