접두사 조정: 생성을 위한 연속 프롬프트 최적화

1. 본 논문에서는 언어 모델 매개변수를 고정 상태로 유지하면서 작은 연속 작업별 벡터(이 벡터를 접두사라고 함)를 최적화하는 자연어 생성 작업에 대한 경량 미세 조정 대안인 접두사 조정을 제안합니다.

2. 어댑터 튜닝은 사전 훈련된 모델의 레이어 사이에 추가 작업별 레이어를 삽입하는 것입니다. 미션 매개변수의 2%~4%만 추가됩니다.

3. GPT-3의 상황 내 학습 또는 프롬프트, 즉 작업 입력에 자연어 작업 지침과 몇 가지 예를 미리 준비한 후 LM에서 출력하는 것입니다.

3. 문제 설명:

(1) Transformer 아키텍처를 기반으로 한 자동회귀 언어 모델이 있다고 가정합니다.

hi는 시간 단계 i에서 모든 활성화 레이어의 연결이며 hi의 계산은 다음과 같습니다.

hi의 마지막 레이어의 출력은 다음 토큰의 분포를 계산하는 데 사용됩니다.

(2) 인코더-디코더 구조

(3) 미세 조정을 위해 다음과 같은 목적 함수를 사용하여 미세 조정

4.접두사 튜닝

방법은 다음과 같습니다.

접두사 조정은 접두사 z=[Prefix;x;y]를 추가하는 자동 회귀 언어 모델입니다. Pidx는 접두사 인덱스 시퀀스이고 |Pidx|는 접두사의 길이입니다.

학습 목적함수는 위와 같으며, 차이점은 언어 모델의 매개변수는 고정되어 있고 접두사 매개변수만 학습된다는 점입니다. hi는 모든 i에 대해 훈련 가능한 PΘ의 함수임이 관찰됩니다. i가 Pidx에 속하지 않을 때 hi는 여전히 PΘ에 의존합니다. 접두사 활성화는 항상 왼쪽에 있고 항상 오른쪽의 모든 활성화에 영향을 미치기 때문입니다.

PΘ 매개변수화 문제: PΘ 매개변수를 직접 업데이트하면 최적화가 불안정해지고 성능이 약간 저하됩니다. 논문의 접근 방식은 행렬 PΘ를 다시 매개변수화합니다.

행의 개수는 같지만 열의 개수가 다르며, 후자가 전자보다 열의 개수가 적습니다. 훈련이 완료되면 피드포워드 신경망의 결과만 유지하고 나머지 매개변수는 제거할 수 있습니다.

5. 실험

세 가지 테이블-텍스트 데이터 세트: E2E, WebNLG, DART, 세 가지 데이터 세트는 복잡성과 크기의 순서로 증가합니다.

요약 데이터 세트: XSUM

(1) 표에서 텍스트로의 실험 효과는 아래 그림과 같습니다.

Prefix의 성능은 경량 벤치마크(FT-TOP2, ADAPTER)의 성능을 능가하여 미세 조정과 동일한 성능에 도달하며, Prefix는 어댑터(0.1%)의 성능보다 우수하며 미세 조정 및 어댑터보다 훨씬 우수합니다. (3.0%) 성능; 이는 접두사 조정이 매개변수를 줄이면서 생성된 데이터의 품질을 향상시키는 것을 보여줍니다.

(2) 요약 작업 수행:

관찰 결과에 따르면 매개변수의 2%만이 미세 조정보다 약 2점 적은 효과를 얻을 수 있는 반면, 매개변수의 0.1%라는 접두어는 차이와는 거리가 멀다는 것을 알 수 있습니다. CCTV의 0.1% 매개변수와 마찬가지로 XSUM의 효과가 테이블마다 텍스트마다 다른 세 가지 이유가 있습니다. ① XSUM에는 더 많은 훈련 데이터가 있습니다. ② XSUM 입력 기사의 길이는 테이블 입력의 17배입니다. 읽고 이해해야 합니다. 기사의 핵심 내용을 확인하세요.

(3) 낮은 데이터 설정, 낮은 데이터 설정을 구축하기 위해 전체 데이터 세트(테이블-텍스트의 경우 E2E, 요약의 경우 XSUM)를 서브샘플링하여 {50100200500} 크기의 작은 데이터 세트를 얻습니다.

왼쪽은 데이터량이 적은 경우 생성한 예인데, 내용은 부족하지만 Fine Tuning보다 Prefix Tuning이 더 신뢰성이 높습니다. 예를 들어 접두사와 FT의 (100, 200) 예는 전자가 표의 내용과 더 일치합니다.

(4) 추론과제(알 수 없는 주제를 추론하는 능력)

뉴스-스포츠 및 뉴스 내라는 두 개의 추론 데이터 세트를 구성합니다(뉴스 아래에는 "세계", "영국", "비즈니스" 등과 같은 많은 하위 섹션이 있으며 이 세 개를 훈련 데이터로 사용하고 나머지는 테스트 데이터로). 실험 결과 그래프는 다음과 같습니다.

(5) 접두어 길이 탐색

(6) 전체 vs 임베딩 전용(변환기의 모든 레이어 조정(변환기의 각 레이어에 힌트 추가) vs 임베딩 레이어만 조정)

추천

출처blog.csdn.net/qq_43775680/article/details/123954087