[Python] 딥러닝 입문 - Python 기반 이론 및 구현(연구 노트)

1. 퍼셉트론

1. 퍼셉트론은 입력과 출력이 있는 알고리즘입니다. 입력이 주어지면 주어진 값을 출력합니다.
그래픽:
여기에 이미지 설명 삽입
공식: 여기서 w1은 입력 신호의 중요도를 제어하는 ​​가중치이고, b는 뉴런이 활성화되는 편향을 조정하는 편향입니다.
여기에 이미지 설명 삽입

2. "게이트"의 역할: 퍼셉트론 → (게이트) → 적용, 계산.
여기서 게이트는 AND 게이트, NAND 게이트 또는 게이트를 나타냅니다.
그것들은 동일한 구성을 가진 퍼셉트론이며 선형이며 가중치 매개 변수의 값만 다릅니다.
XOR 게이트는 비선형이며 위의 3개의 게이트와 같은 단층 퍼셉트론으로는 구현할 수 없다는 점 또한 퍼셉트론의 한계이다.
퍼셉트론의 한계: 비선형 공간이 아닌 선형 공간만 표현할 수 있습니다.
비선형성을 가능하게 하기 위해 적층된 다층 퍼셉트론이 사용됩니다.

2. 신경망

1. 입력 레이어 → 중간 레이어(숨겨진 레이어) → 출력 레이어
2. 비선형 문제는 활성화 함수를 사용하여 입력 신호의 합을 출력 신호로 변환해야 합니다.
학습 과정: 3. 활성화 함수: sigmoid 함수, 단계 여기에 이미지 설명 삽입
함수, ReLU 함수(일반적으로 사용됨), 이미지는 다음과 같습니다.
여기에 이미지 설명 삽입
여기에 이미지 설명 삽입
여기에 이미지 설명 삽입
softmax 함수는 일반적으로 분류 문제에 사용됩니다.
분류 문제의 출력은 "실제 분류 문제에서 얻은 클래스의 수"입니다.
softmax 함수의 출력은 0.0과 1.0 사이의 실수이며 출력 값의 합은 1입니다.
4. 정규화: 데이터를 특정 범위로 제한하는 처리.
전처리: 신경망의 입력 데이터에 대해 미리 결정된 변환을 수행합니다.

3. 신경망 학습

1. 목표 : 최적 매개변수 찾기(예: w, b)
최적 매개변수: 계산된 값과 실제 값의 차이가 가장 작습니다.
2. 지표/평가 : 손실 함수.
일반적으로 사용되는 손실 함수: 평균 제곱 오차, 교차 엔트로피 오차.
3. 방법 : Gradient 방식
Gradient : 각 포인트에서 함수 값이 감소하는 곳을 가리킨다
.
학습률은 인위적으로 설정되며 너무 커서도 안 되고(최적을 놓칠 것임) 너무 작아도 안 됩니다(찾는 데 시간이 걸림).
5. 문제를 해결하려면 세 가지 데이터 세트가 필요합니다. 훈련 세트, 테스트 세트, 최적의 매개변수를 얻기 위해 하이퍼 매개변수를 계산하는 데 사용되는 데이터 세트입니다.

4. 오류 역전파 방법:

1. 핵심 단어: 규칙
2. 통관 상사: Softmax-with-Loss 레이어의 계산 그래프:
여기에 이미지 설명 삽입

5. 학습 관련 기술

1. 최적 매개변수를 찾는 방법: SGD 방법, Momentum 방법, AdaGrad 방법, Adam 방법.
Adam 방법은 Momentum과 AddaGrad를 함께 통합하는 것입니다.
모든 문제에서 잘 수행되는 방법은 없습니다. (그러나 AdaGrad는 상대적으로 안정적인 것을 각각의 방법의 이미지에서 볼 수 있음)
2. 가중치의 초기 값 설정은 매우 중요합니다. 설정이 좋지 않으면 기울기가 사라지고 기울기가 사라집니다. 표현력이 제한적입니다.
3. 초기값: He 초기값, Xavier 초기값.
4. "훈련 시간은 좋고 테스트 시간 차이" - 오버피팅이 발생했습니다.
과적합의 이유: (1) 모델에 매개변수가 많고 표현력이 뛰어납니다. (2) 훈련 데이터가 적습니다.
5. 가중치 감쇠: 가중치 매개변수의 값을 줄이는 것을 목적으로 학습하는 방법. 가중치 매개변수의 값을 줄임으로써 과적합을 억제할 수 있습니다.
학습 중에 큰 가중치에 페널티를 줍니다 .
6. 배치 규범: (1) 가속화된 학습. (2) 초기 값에 덜 의존합니다. (3) 과적합을 억제합니다.

6. 컨볼루션 신경망

1. 목적 : 필터를 찾는다. (필터의 매개변수 학습)
2. 완전 연결 계층의 문제: (1) 데이터의 모양이 "무시"됩니다. (2) 매개변수가 너무 많습니다.
컨볼루션 레이어는 모양을 변경하지 않고 로컬에서 특징을 인식할 수 있습니다.
3. 원본 이미지를 컨벌루션하여 한 번에 하나의 기능을 얻습니다.
4. 필터가 많을수록 더 많은 특징 이미지가 추출됩니다.
5. 계산 공식:
여기에 이미지 설명 삽입
6. 입력이 다중 채널인 경우 필터도 다중 채널이어야 합니다.
7. 3차원 변화:
여기에 이미지 설명 삽입
8. 일반적으로 가장자리의 차이가 상대적으로 크고 비교하기 쉽기 때문에 가장자리에서 시작합니다.

추천

출처blog.csdn.net/jylsrnzb/article/details/103296141