변압기는 오랫동안 관심 노트의 메커니즘 이후 :주의는 당신이 필요로하는 모든 것입니다

원래 종이

논문 중심 사상 : 우리가 어떤 RNN 나 CNN을 포함하지 않는 경우에만주의 메커니즘 모델을 사용하여 모델을 제안하여 인코더 - 디코더가 효율적인 모델을 달성하기 위해 강력한 모델이다.

 

소개 및 배경

출생 후 주의력기구 다양한 개선 태어난 모델이 모델은 일반적으로 원형의 초점 메커니즘 (예 LSTM 개선 등의 횟수 등), 신경망은 이러한 모델은 단점이 병렬 컴퓨팅이고 강력하지, 이러한 문제를 해결하기 위해, 모델주의 메커니즘을 기반으로 종이 선물 만 계산 강력한 병렬뿐만 아니라 좋은 결과가있다.

모델 구조

전체 구조 모델 인코더 - 디코더는, 인코더에있어서, 심볼은 입력 시퀀스이다 나타내는 (X_1, X_2, ..., x_n)연속적인 표현으로 매핑 Z = (z_1, ... z_n)A에서 Z를 획득 한 후, 디코더는 출력 심볼 시퀀스를 생성하고, (Y_1, ..., y_n)생성 한 번에 하나.

모델 구조도 :

코덱 :

인코더 : 인코더가 동일한 층 6 층으로 이루어져, 각각의 층은 두 개의 서브 층을 갖는다. 제 1 층은 다른 완전히 피드 포워드 네트워크 접속 간단한 전면되는 긴 자동 초점 메커니즘이다. 각각은 각 서브 층의 출력 것을 잔류 연결을 채택 층 표준화 층 후 LayerNorm (X + Sulayer (X)), 계층 (X)서브 층 자체의 함수가 얻어진다. 이들 잔차 최적화 절단하려면 모든 계층 및 인터 레이어 모델 (512)는 출력 사이즈를 생성한다.

디코더는 디코더 층 (6)은 각각의 인코더에 두 개의 서브 레이어에서, 동일한 층으로 구성되고, 세 번째는 긴 백 포커스 계층 인코더로부터 출력된다. 인코더와 마찬가지로, 정규화 후의 각 서브 층은 잔류 연결 둘러싸여있다. 위하여 층 시퀀스 정보까지 커버가되도록.

주의

단일 출력, 쿼리, 키, 값으로 매핑됩니다 :주의는 실제로, 키와 값의 모음 (직접 읽기 문서에 대한 키 - 값 메모리 네트워크 쿼리, 키에 대한이 값은이 논문에서 볼 수있다) 쿼리하는 기능입니다 출력은 벡터이다. 사실, 출력은 가중치 키 현재 질의 관련성의 중량을 기준으로 계산 된 상관 함수의 각각의 값에 할당 된 상기 값의 가중 합이다.

내적 관심을 확대

입력은 다음과 같습니다 querie 및 핵심 d_k차원의 가치 d_v차원,

질의 및 모든 키를 분할하는 내적 계산 한 후 \ SQRT {d_k}(구배의 소멸을 방지하기 위해)을 미국 및 softmax를 함수 추의 중량 값을 얻었다.

실제로, 병렬 연산시의 매트릭스에 의해 계산 하였다.

Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V

일부 효율적인 최적화 기술을 통해 속도를 증가하기 때문에 도트를 사용하는 이유.

긴 주목

사실, 더 많은 관심이 연계 해 있기 때문에

MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^o

head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)

동시에하더라도 소비 전체 치수를 감소시킴으로써 감소 될 수있다.

완전히 연결된 네트워크 피드 포워드

변압기 완전히 연결된 네트워크 모두 선형 변환 개의 중간 RELU 조성물의 기능과 동일하다.

FFN(x)=max(0,xW_1+b)W_2+b_2

위치 엔코더

모델 컨벌루션 또는 환상 구조를 사용하지 않기 때문에, 상기 시퀀스 정보는 시퀀스를 사용하기 위해서는, 상대적 또는 절대적 위치 정보를 증가시킬 필요가있다. 그는이 종이 인코더 및 디코더에서 인코딩 하부 위치에 결합했다.

PE_{(pos,2i)}=sin(pos/10000^{2i/d_{model}})

PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})

되고, POS, 난 차원 위치이다

 

 

 

 

 

게시 54 개 원래 기사 · 원 찬양 36 ·은 40000 +를 볼

추천

출처blog.csdn.net/aaalswaaa1/article/details/103942346