[논문 73] 접두어 튜닝: 생성을 위한 연속 프롬프트 최적화

1. 기본 정보

주제 논문 저자 및 단위 원천 연령
Prefix-Tuning: 생성을 위한 연속 프롬프트 최적화 Xiang Lisa Li 외 스탠포드 대학 전산 언어학 협회 연례 회의 2021년

인용 1009, 참조

종이 링크: https://aclanthology.org/2021.acl-long.353.pdf

논문 코드: 코드  XiangLi1999/PrefixTuning  +   추가 커뮤니티 코드

2. 요점

연구 주제 문제 배경 핵심 방법 흐름 하이라이트 데이터 세트 결론적으로 논문 유형 키워드
언어 대형 모델 미세 조정 하나의 작업에 대한 대형 모델의 문제에 대한 대형 모델. 언어 모델 매개변수를 고정하고 작은 연속 특정 벡터(접두사라고 함)를 최적화합니다. 접두사 튜닝은 프롬프팅에서 영감을 받아 이 접두사를 가상 문자처럼 보이게 합니다. 각 작업에 대해 접두사만 디버그하고 이러한 디버그 매개변수를 저장합니다. 이는 이전의 전체 매개변수 미세 조정과 다릅니다. E2E(Novikova et al., 2017), WebNLG(Gardent et al., 2017), DART(Radev et al., 2020), XSUM 훈련 매개변수의 0.1%를 사용한 훈련 결과는 전체 매개변수를 사용한 훈련과 비슷합니다. 모델 방식 접두사 튜닝

접두사 조정과 미세 조정의 차이점:

p9bXM4I.png

3. 모델(핵심 콘텐츠)

적절한 컨텍스트를 사용할 수 있다고 가정하면 LM 매개변수를 변경하지 않고 LM을 부트스트랩할 수 있습니다.

불연속 토큰을 최적화하는 대신 명령이 연속적인 단어 임베딩으로 최적화됩니다.

몇 가지 예를 들어 이 모델을 설명하려면 다음을 수행하십시오.

p9bX526.png

자기회귀 LM의 경우: **z = [PREFIX; ** x ; y ]

인코더-인코더 모델의 경우: **z ** = [PREFIX; x ; PREFIX0'; y ]

Pidx는 접두사 인덱스의 시퀀스를 나타내고 |Pids|는 접두사의 수를 나타냅니다.

숨겨진 변수의 정의와 관련하여 LM은 GPT2로 표현되고 P는 매개변수의 행렬이며 차원은 다음과 같습니다. | Pidx | × dim( hi ):

p9bjROS.png

여기서 φ는 고정이고 θ는 훈련할 매개변수입니다.

직접 최적화Pθ 문제:접두사를 직접 최적화하는 것은 학습률과 초기화에 매우 민감합니다.

p9bxCNj.png

***Pθ와 P'θ의 행은 동일하지만 열은 다릅니다. 훈련이 끝난 후에만Pθ는 보존됩니다.

4. 실험 및 분석

4.1 데이터세트

E2E(Novikova et al., 2017): 도메인 1개, 50K WebNLG(Gardent et al., 2017): 도메인 14개, 22K DART(Radev et al., 2020): 개방형 도메인

4.2 효과

p9qSAmT.png
학습 매개변수의 0.1%만이 tintune보다 높습니다.

샘플이 적은 경우:

p9qSzDK.png

본질적인 평가

접두사의 길이 분석

p9qpqZ8.png

전체 대 임베딩 전용

실험 결과: 불연속 프롬팅 *< *임베딩 전용 제거 *< *접두사 튜닝.

접두사 vs 접두사

.[ x ; INFIX; y ]는 [PREFIX; x ; y ] 보다 약간 나쁩니다 .

초기화(초기값 실험): 실험 결과는 접두사로 실험적으로 관련된 단어를 사용하는 것이 관련 없는 단어를 사용하는 것보다 약간 더 나은 성능을 보인다는 것을 보여줍니다.

5. 요약

수학 문제에 보조선을 사용하고, 원래의 것은 그대로 유지하고, 문제를 쉽게 풀 수 있도록 내용을 추가하는 느낌이 있습니다. 본질적으로 다르지만 실제로는 비슷합니다.

극소수의 매개변수를 사용하여 작업의 적응성을 미세 조정합니다.

지식을 발굴하기 위해 연결 방법을 사용하여 차세대 NLP 교육 패러다임이 도래했으며 차세대 소프트웨어 개발 모델이 도래했습니다.앞으로 대형 모델은 필수 콘텐츠가 될 것입니다.

6. 참고문헌

해피프린스가 만든

추천

출처blog.csdn.net/ld326/article/details/130927614