Tongyi Qianwen-Qwen 기술 보고서 세부 정보 공유

앞에 쓰다

안녕하세요 여러분, 저는 Liu Cong NLP입니다.

Alibaba는 오래 전에 Qwen-7B 모델을 오픈 소스로 제공했지만 어떤 이유로 선반에서 제거되었습니다. 바로 어제 Alibaba는 Qwen-14B 모델(원래 7B 모델도 출시됨)을 오픈소스화했으며 Qwen의 기술 보고서 ​​내용도 공개했습니다. 오늘은 그 내용을 여러분과 공유하고 싶습니다.

추신: 이제 국내 대형 오픈소스 모델들이 기술 보고서를 잇달아 공개하기 시작했습니다. ! !

Report: https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf
GitHub: https://github.com/QwenLM/Qwen

기술 보고서에는 기본 모델, RM 모델, 채팅 모델, 코드 모델, 수학 모델 및 다중 모드 모델을 포함한 전체 Qwen 시리즈 모델이 소개됩니다. Code 모델과 Math 모델은 당분간 오픈 소스가 아니기 때문에 멀티모달 Qwen-VL 모델 자체에 자체 논문이 있습니다. 이번 공유에서는 세 가지 모델을 소개하지 않습니다. 관심 있는 학생들이 직접 확인해 보시면 됩니다.7c8d0fb1d0ca6167b5687163d62f1236.png

먼저 결론부터 말하자면, Qwen-14B 모델은 12개 데이터 세트(언어 이해, 지식, 추론 등 여러 분야 포함)에서 기존 13B와 동일한 수준의 성능이 우수하지만 여전히 GPT에 비해 뒤떨어집니다. -3.5 및 GPT-4. .

099314f79d3522de5145a4ce4be90337.png

사전 훈련

데이터

사전 훈련 데이터는 총 3TB이며 주로 공용 네트워크 문서, 백과사전, 서적, 코드 등이 포함됩니다. 데이터에는 여러 언어가 포함되지만 주로 중국어와 영어가 포함됩니다. 데이터 품질을 보장하기 위해 포괄적인 전처리 절차 세트가 개발되었습니다.

  • 웹 데이터는 HTML에서 텍스트 콘텐츠를 추출하고 언어 인식 도구를 사용하여 언어를 결정해야 합니다.

  • 정규화 후 완전 일치 중복 제거 방법과 MinHash 및 LSH 알고리즘을 사용한 퍼지 중복 제거 방법을 포함한 중복 제거 기술을 통해 데이터 다양성을 높입니다.

  • 언어 모델, 텍스트 품질 채점 모델, 잠재적으로 불쾌감을 주는 콘텐츠 식별 모델을 포함한 여러 모델을 통해 콘텐츠에 점수를 매김으로써 규칙과 기계 학습의 조합을 사용하여 품질이 낮은 데이터를 필터링합니다.

  • 다양한 소스의 데이터를 수동으로 샘플링하고 검토하여 품질을 보장합니다.

  • 모델이 다양한 고품질 콘텐츠에 대해 학습되도록 특정 소스의 데이터를 선택적으로 샘플링합니다.

토크나이저

어휘 크기 영향력 모델의 훈련 효율성과 다운스트림 작업 효과를 향상시키기 위해 Qwen은 오픈 소스 빠른 BPE 단어 분할기-tiktoken을 사용하고 cl100k를 기본 어휘 라이브러리로 사용하며 일반적으로 사용되는 중국어 단어와 다른 언어의 어휘를 추가하고 디지털 문자열을 분할합니다. 단일 숫자로 변환하면 최종 단어 목록 크기는 152K입니다.

아래 그림과 같이 다양한 언어의 다양한 모델의 압축률을 비교하면 Qwen은 대부분의 언어에서 LLaMA-7B, Baichuan-7B, ChatGLM-6B 및 InternLM-7B 모델보다 우수합니다.

d6d797b582931ef193ca9b7b4ec0c387.png

추신: 왜 Baichuan2 모델을 비교하지 않았는지 모르겠습니다.

모델

이 모델은 다음과 같은 주요 수정 사항과 함께 Transformer 프레임워크를 사용합니다.

  • 임베딩 및 출력 프로젝션: 임베딩 레이어와 lm_head 레이어에는 가중치 공유가 없으며 두 개의 별도 가중치입니다.

  • 위치 임베딩: RoPE를 위치 인코딩으로 사용하고 FP32 정확도의 역주파수 매트릭스를 사용하도록 선택합니다.

  • 편향: 편향은 모델의 외삽 기능을 향상시키기 위해 QKV 주의 레이어에 추가됩니다.

  • 사전 정규화 및 RMSNorm: 사전 정규화를 사용하여 훈련 안정성을 개선하고 기존 정규화 방법을 RMSNorm으로 대체합니다.

  • 활성화 함수: SwiGLU 활성화 함수를 사용합니다. 기존 FFN의 두 행렬과 달리 SwiGLU는 세 개의 행렬을 가지므로 숨겨진 레이어 차원을 4배에서 8/3배로 줄입니다.

외삽 능력 확장

Transformer 모델의 Attention 메커니즘은 컨텍스트 길이에 큰 제한이 있으며, 컨텍스트 길이가 증가함에 따라 모델의 계산 비용과 메모리가 기하급수적으로 증가합니다. Qwen 모델은 추론 중에 컨텍스트 길이를 확장하기 위해 간단한 비훈련 계산을 활용합니다.

  • 시퀀스 길이가 증가함에 따라 위치 정보의 크기를 동적으로 조정하는 동적 NTK 인식 보간입니다.

  • LogN-Scaling은 컨텍스트 길이와 훈련 길이의 비율에 따라 Q와 V의 내적을 재조정하여 컨텍스트 길이가 증가함에 따라 어텐션 값의 엔트로피가 안정적으로 유지되도록 보장합니다.

  • 창 주의는 모델이 너무 멀리 있는 콘텐츠에 주의를 기울이지 않도록 주의를 컨텍스트 창으로 제한합니다. 그리고 서로 다른 레이어에서 서로 다른 창 크기를 사용합니다. 낮은 레이어는 더 짧은 창을 사용하고 더 높은 레이어는 더 긴 창을 사용합니다.

c4e36bbe3e9aaace879fc1890bf0f69a.png

기차

  • 자동 회귀 언어 모델링의 표준 방법을 따르고 이전 토큰의 내용을 기반으로 다음 토큰을 예측합니다.

  • 모델 사전 학습 중 최대 길이는 2048입니다. 배치 데이터를 구성하기 위해 텍스트 콘텐츠를 무작위로 스크램블하고 병합한 다음 지정된 길이로 잘립니다.

  • Attention 모듈은 Flash Attention 기술을 사용하여 훈련 속도를 향상시킵니다.

  • 최적화 프로그램은 AdamW를 사용하며 하이퍼파라미터 β1, β2 및 ϵ는 각각 0.9, 0.95 및 10−8입니다.

  • 코사인 학습률 계획을 사용하면 학습률이 최고값의 10%로 감소합니다.

  • 혼합 정밀도 훈련에는 BFloat16을 사용하십시오.

사전 훈련 효과

QWEN 모델은 동일한 수준의 매개변수에서 잘 수행되었으며, LLaMA2-70B와 같은 더 큰 모델도 세 가지 작업에서 QWEN-14B를 능가했습니다.9cb1932045416c9ec8deacbcf72707f0.png

조정

감독된 미세 조정 SFT

데이터 세트의 감독된 미세 조정 기능을 향상시키기 위해 다양한 스타일의 대화에 주석을 달아 다양한 작업에 대한 자연어 생성에 초점을 맞추고 모델의 유용성을 더욱 향상시킵니다. 그리고 크기 훈련 방법도 모델에 영향을 미칩니다. Qwen은 모델 훈련에 ChatML 스타일 형식을 사용합니다. ChatML 형식은 시스템 품질, 사용자 입력, 모델 출력 등을 포함하여 모델의 다양한 유형의 정보를 효과적으로 구분할 수 있으며 복잡한 대화를 처리하고 분석하는 모델의 능력을 향상시킬 수 있습니다.21ab43369309552aa19b17a928be5d51.png

  • 최적화 프로그램은 AdamW를 사용하며 하이퍼파라미터 β1, β2 및 ϵ는 각각 0.9, 0.95 및 1e−8입니다.

  • 모델의 최대 입력 길이는 2048입니다.

  • 훈련 배치 크기는 128입니다.

  • 모델은 총 4000단계 동안 학습되었으며 처음 1430단계에서 학습률이 점차 증가하여 2e−6의 정점에 도달했습니다.

  • 과적합을 방지하기 위해 가중치 감소 값은 0.1로 설정되고, 드롭아웃은 0.1로 설정되며, 그래디언트 클리핑은 1.0으로 제한됩니다.

RM 모델

보상 모델 구축에 있어서 우선 선호 모델 사전 훈련(PMP)을 위해 대량의 데이터를 사용한 후, 고품질 선호 데이터를 통해 보상 모델을 미세 조정합니다. 데이터의 다양성과 복잡성을 보장하기 위해 6600개의 세부 라벨이 있는 분류 시스템의 균형 잡힌 샘플링을 통해 고품질 선호도 데이터를 얻습니다.

보상 모델은 동일한 크기의 Qwen 모델 + 풀링 레이어에서 얻어지며, 특수한 문장 끝 표시 매핑 값이 모델 보상 값으로 사용됩니다.

모델의 학습 과정에서 학습률은 항상 3e-6, 배치 크기는 64, 최대 길이는 2048이며 학습은 한 에포크 동안 수행됩니다.

0c8ff943a4d83c4fdd0f36a484878830.png

강화 학습 PPO

PPO 단계에는 정책 모델, 가치 모델, 참조 모델, 보상 모델의 네 가지 모델이 포함됩니다. 훈련 과정에서 정책 모델은 먼저 워밍업을 위한 50단계에 대해 훈련되어 가치 모델이 다양한 보상 모델에 효과적으로 적응할 수 있도록 보장합니다. PPO 과정에서 각 쿼리에 대해 두 개의 응답이 동시에 샘플링되고 KL 발산 계수는 0.04로 설정되며 보상은 평균값에 따라 정규화됩니다.

정책 모델과 가치 모델의 학습률은 각각 1e−6 및 5e−6입니다. 훈련의 안정성을 높이기 위해 클리핑 값은 0.15입니다. 추론을 수행할 때 생성된 정책의 top-p 값은 0.9로 설정됩니다.

정렬 결과

Qwen의 효과는 LLaMA2, ChatGLM2, InternLM 및 Baichuan2와 같은 동일한 규모의 다른 오픈 소스 모델보다 우수합니다.55f1775e507d67a31a6441d16d4499b0.png

그리고 Qwen-7B-Chat(SFT), Qwen-14B-Chat(SFT), Qwen-14B-Chat(RLHF) 및 GPT4의 대화 성능을 비교하여 수동 평가를 위한 광범위한 주제를 다루는 테스트 데이터 세트를 구축했습니다. .GPT3.5의 차이점. RLHF 모델이 SFT 모델보다 훨씬 우수하다는 것을 알 수 있으며, 이는 RLHF가 인간에게 더 인기 있는 답변을 생성할 수 있음을 나타냅니다.f63397342cefe77e3716634600700dec.png

도구 사용법

Qwen 모델에는 도구 사용 기능이 있습니다.

  • 보이지 않는 도구는 ReAct 프롬프트를 통해 사용할 수 있습니다.

  • Python 인터프리터를 사용하여 수학적 추론, 데이터 분석 및 기타 능력을 향상시킵니다.

  • 에이전트는 인간과 상호 작용하는 동안 HuggingFace에서 대규모 다중 모드 모델 컬렉션에 액세스할 수 있습니다.

추신: 2000개의 고품질 데이터 - React 형식의 데이터.

如何用 ReAct Prompting 技术命令千问使用工具
https://github.com/QwenLM/Qwen/blob/main/examples/react_prompt.md

요약하다

대형모델은 이제 오픈소스일 뿐만 아니라 기술보고서까지~

Zhihu의 "Liu Cong NLP"에 더 많은 관심을 가져주세요. 질문이 있는 친구는 비공개 채팅을 위해 WeChat "logCong"에 저를 추가할 수도 있습니다. 친구를 사귀고, 함께 배우고, 함께 발전합시다. 우리의 슬로건은 "인생은 끝이 없고, 배움은 끝이 없다"입니다.

추신: 새 책 "ChatGPT 원칙과 실제 전투"가 출시되었습니다. 구매를 환영합니다~~.

과거에 추천한 내용:

추천

출처blog.csdn.net/fogdragon/article/details/133397860