목차
개요
머신러닝 이론 학습과 최적화 문제 도출에 필요한 다양한 사전지식을 기록하는 블로그입니다.
1. 라그랑지안 함수
최적화 문제에서는 최적화 문제와 방법의 제약조건을 구한 후 해당 라그랑지안 함수가 종종 요구되어 해결되는데, 다음은 여러 일반적인 상황에서의 라그랑지안 함수 구성 방법이다.
1. 평등 제한 최적화(예: llp)
1.1 합계 없음
Lagrangian 함수를 다음과 같이 정의합니다.
해당 미지수(여기서는 α)에 대한 편도함수를 찾습니다.
그런 다음 위 공식에 대한 고유 분해를 사용하여 원래 최적화 문제를 해결합니다.
1.2 유구화
2. 불평등 제약 최적화(예: svm)
Lagrangian 함수를 다음과 같이 정의합니다.
해당 미지수에 대한 편도함수를 찾아 0으로 설정합니다.
3. 제약 없음(예: ls)
편도함수를 찾기 위해 미지수를 풀고 0으로 두어야 한다는 요구 사항에 직접적으로 해당합니다.
2. 규범
1. F 규범
F 놈은 행렬 놈입니다. A가 mxn 행렬이라고 가정하면 해당 F 놈은 다음과 같이 정의됩니다.
2.l2 규범
l2 놈은 "오류"를 측정하는 데 자주 사용되는 유클리드 거리입니다. 다음과 같이 정의됩니다.
행렬의 경우 l2 표준은 다음과 같이 정의됩니다.
팁: 매개변수는 해당 최대 고유값의 절대값입니다.
3.l1 규범
l1 규범은 절대값의 합이며 다음과 같이 정의됩니다.
4.l2,1 규범
l2,1 노름은 먼저 열별로 l2 노름을 찾은 다음 행별로 l1 노름을 찾는 것입니다. 이는 다음과 같이 정의됩니다.
해당 D 행렬 정의, l2, 1 규범은 다음과 같이 다시 작성할 수 있습니다.
여기서 D는 대각선 행렬이고 대각선은 1/행의 2노름의 제곱입니다.
3. 부분 안내
일반적으로 사용되는 행렬 추적의 편도함수는 다음과 같습니다.
자세한 내용은 행렬의 프로베니우스 노름과 트레이스(trace)와 그 편미분 법칙의 관계_러브 라이프의 블로그를 참조해 주세요.
요약 및 상세설명: 행렬의 궤적과 궤적에 의한 행렬의 유도
1. 경사하강법
Gradient Descent 방법은 Iteration과 Optimization에서 일반적으로 사용되며, 계산 공식은 다음과 같이 해당 편도함수를 찾는 것으로 간단히 이해할 수 있습니다.
경사하강법의 목적은 가중치 매개변수 w를 지속적으로 업데이트하여 손실 함수 L의 값이 지속적으로 감소하도록 하는 것입니다.
2. 트레이스의 일반적인 정의 및 속성
1.tr( AB ) = tr( BA )
2.tr( A ) = tr( A^ T)
3.tr( A + B ) = tr( A ) + tr( B )
4.tr( rA ) = r tr( A ) = tr(rA * I) (i는 항등 행렬임)
4. 크로네커 제품
Kronecker 곱은 모든 크기의 두 행렬 간의 연산이며 결과는 로 표시되는 행렬입니다 . Kronecker 제품은 다음과 같은 특별한 형태의 텐서 제품 입니다.