어떻게 시퀀스를 생성하려면
회귀
CNN은 : 요소의 상대적인 위치는 컨벌루션 창에 의해 모델링
RNN은 : 타이밍의 요소의 절대 위치에 의해 시작 깁스
변압기 : 글로벌 계산의 관심, 위치를 제공하기위한 추가 정보가 필요
- 어떻게 위치 정보를 제공하기 위해?
- 고정 삽입
- 위치 삽입 내용
- 글로벌 모델링에 의한 문제
- 입력 시퀀스의 길이 관계 속도의 제곱에 비례하여 계산량을 병렬 있지만
- 글로벌 모델링,주의는 무관 한 요소에 할당됩니다
비 회귀
변압기와 디코딩
- 어떻게 디코딩 입력 (불임)를 다루는
- 요소 사이의 디코딩 상호 의존, 복합을 처리하는 방법에 문제가 약하다
- 그는 얼마나 최적의 복호 순서를 탐색하는 문제를 해결하기 RNN 디코더 포기 (빔 됨)
NMT VS 텍스트 요약 화
차이 :
- 시퀀스 길이 (장기 의존성)
- 입력과 출력 사이의 길이 차이
- 출력 매핑 입력 차이
같은 :
- 텍스트 매핑 사이
- NLG의 수호자
빠르게 변압기를 MAKE
오시는 길 :
- 시퀀스의 길이를 짧게
- 폐기 글로벌 의존성, 선택된 지역의 의존성
- 방지 정보는 블록 사이에 흐르지 않는다
방법 :
- 시퀀스의 첫 감소 길이를 컨볼 루션 관심을
- 각각의 자기 관심의 각 블록에 대한 분할 블록,
- 있도록 슬라이딩 윈도우는 각 블록 사이에 존재 겹치는
여러 가지 방법
1. 검토 네트워크 (이미지 주석)
캡션 세대에 대한 검토 네트웍스는 2016 NIPS
- 인코더의 검토 사용하여 인코더 측면에 초점 출력이 생각 벡터를 제공 재 - 인코딩
- 복호 과정은 생각 벡터보다는 부호화 상태에 기초
- 저자는 이미지 캡션의 방법이 아닌 입력 순서하지만, 이미지를 사용
- 디코딩 할 때, 포인터 발전기 네트워크를 사용하지 않는 기준 사상 벡터
2. 심의기구 (번역, 요약)
심의 네트워크 : 순서 세대를 넘어 하나의 패스 디코딩은 2017 NIPS
- 인코딩, 디코딩, 얻어진 디코더 출력 숨겨진 상태
- 숨겨진 상태의 접합에 대응하는 디코더 출력 매립
- 참석에 대한 상태 1.encoding 스티치 출력 매립 참석에 대한 상태 2.decoding : 패스하는 제 2 디코더
- 더 중요한 점 2 : 듀얼 디코딩, 사전 교육 모델
- 검토 또는 정보 소스 측 및 심의 정보를 타깃 측 인
- 이 논문에있어서 ROUGE 점수를 복제 할 수 없습니다
3. 작성 및 편집 네트워크 (摘要)
편집 메커니즘을 통해 추상 쓰기 ACL 2018
- 인코딩, 디코딩, 얻어진 디코더 출력 숨겨진 상태
- 참석에 대한 상태 1.encoding 접합 참석에 대한 상태 2.decoding : 패스하는 제 2 디코더
- 반복 "검토 - 디코딩"프로세스
- 저자 알고리즘은 "요약을 생성하는 데에 호의 작업"에 적용
- 결과 한 번 또는 두 번이나 최고의 디코딩
4. 적응 연마기구 (翻译)
신경 기계 번역을위한 적응 형 멀티 패스 디코더 EMNLP 2018
- 유사 작성 및 편집 메커니즘,하지만 모델 번호는 적응 적으로 디코딩 휠을 선택할 수 있습니다
- 단지 일반적인 고려 라운드를 디코딩 개성을 무시하고 고정 : 전체적인 효과는 좋지만, 효율이 상대적으로 낮은
- 위해, 정책 네트워크의 선택을 할 수 훈련은 다음 패스 디코딩 진행 여부에 배울 수있는 방법을 강화하기 위해
- 라운드의 수를 디코딩의 적응 훈련 방법, 여전히 미니 배치를 사용할 수
- N 패스 디코더 파라미터 공유, 하나의 디코더가
5. 유사점과 여러 모델의 차이
- 고통 점의 자기 회귀 모형 : 당신은 다음 디코딩 디코딩시 획득 초안 글로벌 정보를 수행 정보가 디코딩의 일부가 아닌 사용할 수 없습니다
- 깊이를 심화 간단한 디코더와의 차이점은 무엇입니까? 인코더 디코더 + + VS 인코더 디코더
- 주의 메커니즘, 그것은 벡터에 대한 생각, 또는 숨겨진 상태에서 인코딩되어 있나요
- 복호화 순서 정보를 매립하는 전용 심의 사용, 다른 하나는 직접 사용하는 것이다
생각
- 다중 작업 학습
- 보조 대물
- 라벨 스무딩 크로스 엔트로피 손실
- 공유 내장 무게
- 텍스트 요약 작업을 분해 :
- 인코더
- 디코더
- 주의
- 교육 전략
- 생성 방법
할 것
경량 회선 변압기 论文 : 가볍고 동적 컨벌루션와 2019 지불 적은주의
- 실험 설계
- 중요한 모듈로 포인터를 생성 또는 복사 메커니즘
- 플러스 보험 메커니즘, 기능 등의 괘 회피
- 평가
- 다이제스트 길이
- ROUGE (타겟)
- ROUGE (소스 포함)
- 모델 매개 변수의 수
- 교육 시간
- 디코딩 속도 추론 단계
- 당황
기초를 반복의 기본 네트워크에 여러 논문, 논문은 그 성취를 주장
멀티 태스킹 학습의 이해
나는 의욕을 취소합니다