1,800억 개의 매개변수, 세계 최고의 오픈소스 대형 모델 Falcon이 공식 발표되었습니다! Crush LLaMA 2, 성능은 GPT-4에 가깝습니다.

출처 | Xinzhiyuan ID | AI 시대

하룻밤 사이에 세계에서 가장 강력한 오픈 소스 대형 모델 Falcon 180B가 인터넷 전체를 휩쓸었습니다!

1,800억 개의 매개변수를 갖춘 Falcon은 3조 5,000억 개의 토큰에 대한 교육을 완료하고 Hugging Face 순위에서 직접 1위를 차지했습니다.

벤치마크 테스트에서 Falcon 180B는 추론, 코딩, 숙련도 및 지식 테스트를 포함한 다양한 작업에서 Llama 2를 이겼습니다.

그림

실제로 Falcon 180B는 Google PaLM 2와 동등하며 성능은 GPT-4에 가깝습니다.

그러나 Nvidia의 수석 과학자인 Jim Fan은 이에 대해 의구심을 표명했습니다.

- 코드는 Falcon-180B 훈련 데이터의 5%만을 차지합니다.

코드는 추론 능력을 향상하고, 도구 사용을 마스터하고, AI 에이전트를 향상시키는 데 단연 가장 유용한 데이터입니다. 실제로 GPT-3.5는 Codex를 기반으로 미세 조정되었습니다.

- 인코딩 참조 데이터가 없습니다.

코딩 기능이 없으면 "GPT-3.5보다 우수하다"거나 "GPT-4에 가깝다"고 주장할 수 없습니다. 이는 사전 훈련 방법의 필수적인 부분이어야 하며 나중에 조정하는 것이 아닙니다.

- 매개변수가 30B보다 큰 언어 모델의 경우 하이브리드 전문가 시스템(MoE)을 채택할 때입니다. 지금까지 우리는 OSS MoE LLM < 10B만 보았습니다.

그림

Falcon 180B의 유래는 무엇인지 살펴보겠습니다.

그림

세계에서 가장 강력한 오픈 소스 모델

이전에 Falcon은 1.3B, 7.5B 및 40B의 세 가지 모델 크기를 출시했습니다.

공식 소개에 따르면 Falcon 180B는 40B의 업그레이드 버전으로 아부다비에 있는 세계 최고의 기술 연구 센터인 TII가 출시했으며 무료로 상업적으로 사용할 수 있다.

그림

이번에 연구진은 모델의 확장성을 개선하기 위해 Multi-Query Attention을 사용하는 등 기본 모델에서 기술 혁신을 이루었습니다.

그림

훈련 과정에서 Falcon 180B는 Amazon 클라우드 기계 학습 플랫폼인 Amazon SageMaker를 기반으로 하며 최대 4096 GPU에서 3조 5천억 개의 토큰에 대한 훈련을 완료했습니다.

총 GPU 계산 시간은 약 7,000,000입니다.

Falcon 180B의 매개변수 크기는 Llama 2(70B)의 2.5배이며, 훈련에 필요한 계산량은 Llama 2의 4배입니다.

특정 훈련 데이터 중 Falcon 180B는 주로 RefinedWe 데이터 세트입니다(약 85% 차지).

또한 선별된 대화, 기술 문서 및 소규모 코드 모음을 혼합하여 교육을 받았습니다.

이 사전 훈련 데이터 세트는 3조 5천억 개의 토큰이라도 한 시대 미만만 차지할 만큼 충분히 큽니다.

그림

공식적으로는 Falcon 180B가 현재 "최고의" 오픈소스 대형 모델이라고 주장하고 있으며, 구체적인 성능은 다음과 같습니다.

MMLU 벤치마크에서 Falcon 180B는 Llama 2 70B 및 GPT-3.5보다 성능이 뛰어납니다.

HellaSwag, LAMBADA, WebQuestions, Winogrande, PIQA, ARC, BoolQ, CB, COPA, RTE, WiC, WSC 및 ReCoRD에서는 Google의 PaLM 2-Large와 비슷합니다.

그림

또한, 현재 Hugging Face 오픈소스 대형 모델 목록에서 가장 높은 점수(68.74점)를 기록하며 LlaMA 2(67.35점)를 제치고 오픈형 대형 모델로 자리매김하고 있습니다.

그림

팔콘 180B 사용 가능

동시에 연구원들은 채팅 대화 모델 Falcon-180B-Chat도 출시했습니다. 이 모델은 Open-Platypus, UltraChat 및 Airoboros를 포함하는 대화 및 지침 데이터 세트에 대해 미세 조정되었습니다.

그림

이제 누구나 데모 경험을 할 수 있습니다.

그림

주소: https://huggingface.co/tiiuae/falcon-180B-chat

프롬프트 형식

기본 모델은 대규모 대화형 모델이 아니기 때문에 프롬프트 형식이 아니며, 지시를 통해 학습되지 않아 대화식으로 응답하지 않습니다.

사전 학습된 모델은 미세 조정을 위한 훌륭한 플랫폼이지만 직접 사용해서는 안 됩니다. 대화 모델에는 간단한 대화 모드가 있습니다.

System: Add an optional system prompt hereUser: This is the user inputFalcon: This is what the model generatesUser: This might be a second turn inputFalcon: and so on

트랜스포머

Transfomers 4.33부터 Falcon 180B를 Hugging Face 생태계에서 사용하고 다운로드할 수 있습니다.

Hugging Face 계정에 로그인하고 최신 버전의 변환기가 설치되어 있는지 확인하세요.

 
 
pip install --upgrade transformershuggingface-cli login

bfloat16

bfloat16에서 기본 모델을 사용하는 방법은 다음과 같습니다. Falcon 180B는 대형 모델이므로 하드웨어 요구 사항을 숙지하시기 바랍니다.

이를 위한 하드웨어 요구사항은 다음과 같습니다.

Falcon 180B를 완전히 미세 조정하려면 최소 8X8X A100 80G가 필요하고, 추론용이라면 8XA100 80G GPU도 필요하다는 것을 알 수 있습니다.

그림

 
 
from transformers import AutoTokenizer, AutoModelForCausalLMimport transformersimport torch
model_id = "tiiuae/falcon-180B"
tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(    model_id,    torch_dtype=torch.bfloat16,    device_map="auto",)
prompt = "My name is Pedro, I live in"inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output = model.generate(    input_ids=inputs["input_ids"],    attention_mask=inputs["attention_mask"],    do_sample=True,    temperature=0.6,    top_p=0.9,    max_new_tokens=50,)output = output[0].to("cpu")print(tokenizer.decode(output)

다음과 같은 출력이 생성될 수 있습니다.

My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video.I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.

8비트 및 4비트 비트와 바이트 사용

게다가 Falcon 180B의 8비트 및 4비트 양자화 버전은 평가 측면에서 사실상 bfloat16과 구별할 수 없습니다!

이는 사용자가 양자화된 버전을 사용하여 하드웨어 요구 사항을 줄일 수 있으므로 추론에 좋은 소식입니다.

추론은 4비트 버전보다 8비트 버전에서 훨씬 빠릅니다. 양자화를 사용하려면 "bitsandbytes" 라이브러리를 설치하고 모델을 로드할 때 해당 플래그를 활성화해야 합니다.

model = AutoModelForCausalLM.from_pretrained(    model_id,    torch_dtype=torch.bfloat16,    **load_in_8bit=True,**    device_map="auto",)

대화 모델

위에서 언급했듯이 대화 추적을 위해 미세 조정된 모델 버전은 매우 간단한 교육 템플릿을 사용합니다. 채팅 스타일 추론을 실행하려면 동일한 패턴을 따라야 합니다.

참고로 채팅 데모의 [format_prompt] 기능을 살펴보세요.

def format_prompt(message, history, system_prompt):    prompt = ""    if system_prompt:        prompt += f"System: {system_prompt}\n"    for user_prompt, bot_response in history:        prompt += f"User: {user_prompt}\n"        prompt += f"Falcon: {bot_response}\n"        prompt += f"User: {message}\nFalcon:"    return prompt

위에서 볼 수 있듯이 사용자 상호 작용과 모델 응답 앞에는 User: 및 Falcon: 구분 기호가 있습니다. 우리는 이들을 연결하여 전체 대화 기록을 포함하는 프롬프트를 형성합니다. 이렇게 하면 빌드 스타일을 조정하기 위한 시스템 프롬프트가 제공될 수 있습니다.

네티즌들의 뜨거운 댓글

많은 네티즌들은 Falcon 180B의 진정한 강점에 대해 열띤 토론을 벌였습니다.

정말 믿을 수 없습니다. GPT-3.5를 능가하며 Google의 PaLM-2 Large와 동등합니다. 이것은 게임 체인저입니다!

그림

한 스타트업 CEO는 "Falcon-180B 대화형 로봇을 테스트했는데 Llama2-70B 채팅 시스템보다 나을 게 없었다"고 말했다. HF OpenLLM 순위도 엇갈린 결과를 보여줍니다. 더 큰 크기와 더 큰 훈련 세트를 고려하면 이는 놀라운 일입니다.

그림

밤을 줘 :

몇 가지 항목을 주고 Falcon-180B와 Llama2-70B가 각각 대답하고 효과가 무엇인지 살펴보시겠습니까?

Falcon-180B는 안장을 동물로 잘못 간주했습니다. Llama2-70B는 간결하게 대답하며 정답을 내놓았습니다.

그림

그림

참고자료:

https://twitter.com/TIIuae/status/1699380904404103245

https://twitter.com/DrJimFan/status/1699459647592403236

https://huggingface.co/blog/zh/falcon-180b

https://huggingface.co/tiiuae/falcon-180B

추천

출처blog.csdn.net/lqfarmer/article/details/132765938