변압기 -주의는 당신이 필요로하는 모든 것입니다

https://www.cnblogs.com/rucwxb/p/10277217.html

변압기 -주의는 당신이 필요로하는 모든 것입니다

변압기 모델 5 월 2018 제안되었다, 전통적인 RNN를 대체 할 수 및 기계 번역을 구현하는 CNN의 새로운 아키텍처는 용지의 이름은주의가 필요한 모든입니다. 여부 RNN CNN, NLP 작업을 다루는 단점이있다. CNN은 시퀀스의 고유의 컨볼 루션이 쉽게 RNN (예 50tokens 문장의 길이와 같은 대용량 메모리를 차지한다) 메모리 제한을 초과하지 병렬화 된 텍스트, 매우 적합하지 않다.

공통 인코더 - 디코더, 인코더과 이상 사이의 왼쪽 변압기 구조 모델 인 아래에서 인코더 (오렌지 박스의 위쪽) RNN + 관심에 비해 좌우 틀 프레임 디코더 Nx를 Nx를로 분할 주목 디코더 자기주의 (낮은 두 개의 오렌지 박스) 내부. 각 기능은 관심 헤드 멀티가 있습니다. 마지막으로, 위치 인코딩은 위치 정보를 추가하는 것으로 간주되지 않습니다. 멀티 헤드의 관심 아래에서, 자기 관심, 위치 인코딩은 여러 각도를 설명합니다.

멀티 헤드주의 :   
벡터로 워드마다 치수 H 주목 유사도 계산을 추구 치수 H를 잘랐다. 벡터 형태로 매핑으로 고 차원 공간에서의 단어가 각 공간 차원이 다른 특성을 알 수 있기 때문에, 대응하는 모든 넣어 함께보다 합리적인 공간에 비해, 인접하는 공간의 결과는 더욱 유사하다. 예를 들어, 단어 벡터 크기 = 512, 그림 중 H = 8, 각 64주의의 공간 결과를 세련 학습.

자기주의 :   
각 단어의 비트는 방향과 거리를 무시할 수있는 단어, 직접 각 단어의 인코딩을 선고 할 수있는 기회를 가질 수있다. 예를 들어, 오른쪽이 문장 상기 다른 단어와 함께 각 단어와 문장 사이 우리 연락처로 에지 컬러 측 깊은 결합이 강해 나타내고, 에지보다 깊은 워드 모호한 일반적인 의미를 갖는다. 예를 들어 : 법, 응용 프로그램, 누락, 의견 . . .

위치 인코딩 :   
변압기는 CNN이나 회선의 재발 RNN도를 가지고 있지만, 시퀀스 주문 정보가 중요하기 때문에, 예를 들어, 당신이 나에게 백만 내일을 빚 또한 당신이 또한 나에게 매우 다른 백만 내일을 빚을 의미한다. . . 본원 전파 주기적 변화, 아날로그 신호와 유사 정현파 ↓를 사용한 위치 정보 변환기 토큰을 계산하는 단계를 포함한다. 이주기 기능은 어느 정도 모델의 일반화 능력을 증가시킬 수있다.

그러나, BERT 직접 교육 위치의 위치 정보, 각 위치에 대한 임의의 초기화 벡터를 매립 유지, (간단한 조 ..)이 최종 위치를 최종적으로 포함 얻어진 위치 정보를 매립하고 매립 단어 결합 모드를 매립 모델 트레이닝에 추가 에, BERT 직접 접합을 선택합니다.

추천

출처www.cnblogs.com/Ann21/p/11457185.html