종이 | 깊은 상호 학습

[알고리즘 및 수식은 조금이라도 순진, 매우 간단하지만, 좋은 기사를 작성]

큰 용량의 작은 네트워크를 만들기 위해, 우리는 일반적으로 증류를 사용합니다. 이 문서에서는 선물 새로운 방법 : 서로 (깊은 상호 학습, DML)에서 학습의 깊이를. 증류와 함께 배우는 학습 학생들의 복수의 존재 서로 다른, 그리고 각 학생 사이에 서로에게서 배울 수 있습니다. 또한 놀라운 결과를 발견 : 우리는 교사 네트워크 piror 강력한 필요하지 않지만 함께 네트워크를 배우는 학생들의 간단한 그룹이 필요합니다 성능이 증류 학습을 초월 할 수 있습니다.

1. 소개 동기와 방법 설명

, 간소화 된 네트워크 설계, 모델 압축 모델, 이원론 (이진화)을 치기뿐만 아니라 증류에 대한 가장 흥미로운 모델 : 모델을 간소화 많은 방법이있다.

증류는 동기 부여 모델 : 유사한 기술의 대규모 네트워크와 소규모 네트워크,하지만 큰 네트워크 교육 간단한 좋은으로하지 않았다. 즉, 교육 네트워크의 작은 크기의 문제가 아니라 최적화되어 있습니다.

따라서,이 모델은 증류 모델 교사에 설정합니다. 작은 학생 모델 시도는 오히려 기존의 감독 목표를 통해 학습보다, 교사의 특성이나 식의 분류 확률 모델을 모방합니다. 교사 모델이 사전에 훈련 따라서 증류 학습은 학습 할 수있는 한 가지 방법입니다.

서로 다른이 문서의 접근한다. 학생 네트워크의 일련의 설정이 논문은 함께 배운다. 두 손실 함수 훈련에서 각 학생 네트워크 : 하나는 기존의지도 학습의 손실이며, 나머지는 손실 (흉내 손실), 학생의 사전 확률로 다른 학생들의 분류 확률의 모방이다.

... 그리고 흉내 손실이 다른 학생들의 수업 확률에 맞춰 각 학생의 수준의 후방은.

의미 세 가지 측면이 없습니다 : (1) 각 학생의 네트워크 성능, 학습의 증류보다도 더 나은 개인보다 더 나은 학습하지만, (2) 더 이상 강한 교사를 필요로 (3) 서로 3 개 네트워크를 만들기 위해 학습 하나의 큰 네트워크보다 나은 학습. 즉 우리는 정확성, 편리하게 올 수 서로 학습의 깊이를 고려, 스케일 모델을 고려하지 않아도된다.

그것을 설명 할 이론이 없다? 유감스럽게도 그런 것 같지 않습니다. 즉 : 어느 증가에 최종 덕분에? 우선, 서로 배우고, 네트워크에 가이드 학생들에게 추가 정보를 제공하고 증류를 배우고, 그 네트워크는 학생들이 더 합리적, 일반 지역 최적해에 빠지지 않도록. [A가 드롭 아웃과 같은 비트가 아니라 강력한 네트워크 구조의 변화하지만, 최적화 전략의 변형의 견고성]

무거운 보행자 인식 및 영상 분류에 저자는 증류보다 더 나은 결과를 학습, 실험을 실시했다. 몇 FOUND도 있습니다 :

  • 이러한 방법은 네트워크 구조, 또는 네트워크의 다수의 유효 크기의 조합의 다양한 효과;

  • 네트워크의 수가 협력을 증가 할 때, 성능도 향상된다.

  • 이 반지도 학습을위한, 모두 때문에 라벨 데이터의 효과적인 모방의 손실 또한 라벨없는 유효한 데이터의 도움이됩니다.

2. 관련 연구

증류 학습에 비해, 직접 던져 교사, 학생의 네트워크의 개념과 일반적인 네트워크의 무리가 서로에게서 배울 수 있습니다.

협동 학습에 비해,이 목표는 각각의 네트워크에서 동일하다. 기존의 협동 학습은 다른 작업을 해결하기위한 협력.

3. 방법

3.1 배합

같이, 매우 명확보세요.

10_1

존재한다고 가정 \ (M \) 카테고리 \ (N \) 샘플 \ (\ {x_i로부터 \} _ {I가 =. (1)} ^ N은 \) , 라벨에 대응 \ (\ {y_i \} _ {i가 = 1} N ^ \) .

마지막으로지도 학습 손실 \ (L_C는 \) 예측 확률과 실제 라벨 사이의 KL 발산한다. softmax를 정규화 네트워크의 가능성을 예측합니다.
\ [P ^ m (x_i로부터) = \ FRAC {\ EXP (Z ^ m)} {\ sum_ {m = 1} ^ M \ EXP (Z ^ m).} \]
\ [L_C = - \ sum_ {I = . (1)} ^ N \ sum_ {m = ^ MI는 (y_i, m) \ 로그 (P는 ^ m은 (x_i로부터)) \]. 1}
\ 좌측 [본인은 \ (Y_ {I} m \ 오른쪽) = \ 좌측 \ { LL을 {} {} 배열 시작 \ {1} {Y_ {I} = {m} \\ 0} {Y_ {I} \ NEQ m} \ {말단 배열} \ 오른쪽. \]

또한, 우리는 네트워크의 또 다른 임의의 초기 도입 네트워크가 모의 네트워크 손실 2를 참조하여 정의된다 :
\ [KL D_ {} \ (\ boldsymbol 남아 {2} {P} _ \ | \ boldsymbol {P} _ {1} \ 오른쪽) = \ sum_ {난 = 1} ^ {N} \ sum_ {m = 1} ^ {m} P_ {2} ^ {m} \ (왼쪽 \ boldsymbol {X} _ {I} \ 오른쪽) \ \ FRAC 로그 {P_을 {2} ^ {m} \ 좌측 (\ boldsymbol {X} _ {I} \ 오른쪽)} {P_ {1} ^ {m} \ (왼쪽 \ boldsymbol {X} _ {I} \ 오른쪽)} \]

설명 : 모두 동일한 확률이 그 손실이 제로인 경우, 그렇지 않으면, (a는 0, 1 경향 경향) 긴 두 가지 흐름으로 손실이 긍정적 같다.

물론, 우리는 또한 대칭 KL 손실을 사용할 수, 즉 \ (\ FRAC {1} { 2} \ 왼쪽 (D_ {KL} \ 왼쪽 (\ boldsymbol {P} _ {1} \ | \ boldsymbol {P} _ {2 } \ 오른쪽) KL + D_ {} \ 좌측 (\ boldsymbol {2} {P} _ \ | \ boldsymbol {P}} _ {1 \ 오른쪽) \ 오른쪽) \). . 그것은 어떤 차이의 효과를 한 것으로 밝혀졌습니다. 블로거 원더 화학식 [7] 잘못된

마지막 손실은 위의 손실과 손실이 직접 요약 학습 감독 모방하는 것입니다.

3.2

각 네트워크는 별도의 GPU 계산 될 수있다.

이상의 네트워크를 추가 할 때, 모방 손실을 평균.

또 다른 최적화 방법 : 다음 다른 네트워크 (교사로 통합되는) 평균 그래서 모든 학생들의 가능성, 그리고 평균 KL 발산 확률과 학생 분배 네트워크의 확률을 계산합니다.
\ [L은 _ {\ Theta_ { K}} = L_ {C_ {K}} + D_ {KL} \ 좌측 (\ boldsymbol {P} _ {평균} \ | \ boldsymbol {P} _ {K} \ 오른쪽) \ 쿼드 \ boldsymbol {P} _
{평균} = \ FRAC {1} {K-1} \ sum_ {L = 1, L \ NEQ K} ^ {K} \ boldsymbol {P} _ {1} \] 실험 나는이 일을하는 것은 좋지 않은 것으로 나타났습니다. 가능한 이유는 다음과 같습니다 평균 작업이 [라인에] 초월 이해 난수의 교사의 엔트로피를 감소시킨다.

3.3 약하게지도 학습

구현은 간단하다 후 최적화지도 학습 손실을 기반으로, 라벨 데이터가 존재한다면, 그것은 모방 손실에 기초하여, 최적화 후 표지 된 데이터 인 경우.

4. 실험

4.1 기본 실험

10_2

표에 나타낸 바와 같이, 저자는 네트워크 구조를 많이 했어요. 대화 형 학습, 정확성이 개선되면 (DML-공업은 긍정적이다). 상기 조성물은 상기 한 쌍의 다양한 네트워크를 포함한다. 저자는 또한 보행자에게 무거운 작업을 식별하기 위해 노력, 정확성도 향상되었습니다.

훈련하는 동안, DML도 빠르고 더 나은 통합에 기여한다.

저자는 두 반복 전략을 시도 하나는, 반복의 시퀀스 인 상기 제 1 네트워크의 반복 한 다음 두 번째 반복 완료, 두 번째는 동일한 시간에 반복한다 병렬 전략이다. 저자는 두 번째 더 발견했다. 때문에 병렬로 제 2의 더 높은 효율.

저자는 또한 학습의 증류를 비교, 효과는 훨씬 더 DML 좋지 않습니다.

저자는 또한 네트워크의 최종 결과에 대한 학생 수의 영향을 조사했다. 전반적 경향을 성장하고, 분산도 작다.

4.2 깊이 테스트

왜 DML 효과? 저자는 또한 몇 가지 실험을 실시했다.

[4,10] 있음 : 일반적으로 더 나은 슬릿에 네트워크 (좁은 틈) 일반화 능력이 떨어지는 것보다 네트워크 (넓은 계곡), 협곡 떨어진다. 이유는 무엇입니까? 외란의 입력, 협곡 네트워크에서 더 큰 변화하지만, 후자 없을 때 때문에. DML의 슬릿의 네트워크를 도와주는 촉진자의 역할 역할을합니다.

저자는 이것을 증명하지만, 실험을 수행 할 수 없습니다와 [4, 10], 저자로 네트워크에서 무거운 무게는 가우시안 잡음을 추가했습니다. 그 결과, 원래의 강한 훈련 오류 증가의 네트워크 및 네트워크 교육 연수 오류 DML 극히 증가시킨다.

또한, DML은 교사의 네트워크 운영의 평균입니다. 우리는이 이퀄라이제이션을보고하는 것은 좋지 않다. 저자는 DML의 추가는 예측 네트워크 그렇게 확신하지하게 발견했다. 이것은 엔트로피 정규화 방법 [4,17]과 유사하고, 네트워크는 더 넓은 지역 최소값을 찾는 것을 도울 수있다. 그러나, [4], 더 나은 효과 DML 비교.

그것은 또는 DML하지 않고, 학교 특성 중 네트워크 초기화 다른이 다른 것을 발견했다. 따라서, 임의성 서비스의 차이, 견고성을 제공합니다. 우리가 강제하는 경우 또한, 특성은 최종 결과가 떨어지는 대신 상승되지 않으며, 유사 하였다. 저자는 기능에 L2 손실, 나쁜 효과의 결과 가입을 시도합니다.

추천

출처www.cnblogs.com/RyanXing/p/deep_mutual_learning.html