KubeAI 대형 모델 추론 가속화 실습

[심천] Yuanchuanghui: 오후 5시 26분, 파티홀이 여러분을 기다리고 있습니다.”

1. 배경

최근에는 대형 모델 전용 추론 클러스터를 프로덕션 환경에 일괄 배치해 70B를 포함한 대형 모델의 추론 속도를 50% 높이는 데 성공해 구축 비용을 대폭 절감하고 프로덕션 환경에 안정적으로 적용하고 있다. 이 문서는 대규모 모델 추론 클러스터 배포에 대한 일부 경험을 기반으로 하며 대규모 모델의 추론 속도를 효과적으로 향상시키는 몇 가지 방법을 공유합니다. 마지막으로, 우리가 잘 평가하고 수행한 몇 가지 대규모 모델 추론 프레임워크를 추천합니다. 나는 이러한 제안이 독자들이 자신의 프로젝트에 적합한 추론 프레임워크를 선택하는 데 도움이 되기를 바랍니다.

OpenAI의 과학자인 정형원 씨는 2023년 공개 강연 "대형 언어 모델"[8]에서 대형 모델의 특정 기능은 특정 규모에 도달해야만 드러날 수 있다고 지적했습니다. 대형 모델의 비율은 앞으로 확실히 증가할 것입니다. 이는 대형 모델의 개발 추세이기도 합니다. 매개변수 수가 증가함에 따라 대형 모델의 추론 속도에 대한 요구 사항이 점점 더 높아지고 있습니다. 대형 모델의 추론 속도 또는 처리량을 향상하려면 어떤 방법을 사용할 수 있습니까?

먼저 대형 모델의 가속 최적화 방향에 대해 논의한 다음, 타임라인을 기반으로 "FlashAttention"과 같은 기술을 포함하되 이에 국한되지 않는 업계의 보다 고전적이고 실용적인 대형 모델 가속 기술을 소개합니다. [1]" 및 "PageAttention[3]" .

다음은 업계의 몇 가지 고전적인 대형 모델 추론 가속 기술을 연대순으로 나열한 것입니다. 이 기사는 독자들에게 개발의 연대순으로 대형 모델 가속 방법에 대한 검토를 제공하려고 합니다.

위에서 언급한 기술 외에도 대형 모델의 추론 속도를 향상시킬 수 있는 대형 모델의 정량화 기술도 있으므로, 지금은 이에 대한 논의를 나중에 기회가 되면 별도로 게시하도록 하겠습니다. .

2. 대형모델 개발의 과제

미래에는 대형 모델의 매개변수 수가 점점 더 많아질 것입니다. 이는 대형 모델의 개발 추세이기도 하며 추론 가속에 대한 요구 사항도 점점 더 높아질 것입니다.

OpenAI는 논문 "신경 언어 모델의 확장 법칙"[7]에서 대형 모델에 대한 확장 규칙을 도입했습니다. 이러한 규칙은 모델의 기능과 크기 간의 관계를 보여줍니다. 특히, 모델의 기능은 모델 매개변수 수, 데이터 세트 크기, 훈련 중에 필요한 계산량을 포함한 크기에 따라 크게 달라집니다. 또한, OpenAI 과학자 정형원 씨는 2023년 공개 강연 "대형 언어 모델"[8]에서 대형 모델의 특정 기능은 특정 규모에 도달해야만 드러날 수 있다고 지적했습니다.

위 사진은 정형원 선생님의 연설 ppt[8]에서 발췌한 것입니다. 그림은 주로 관점을 표현한 것으로, GPT3에서 GPT4로 모델의 규모가 커질수록 모델의 역량은 점점 더 강해지고, 새로운 역량까지 등장하게 된다.

그러나 모델의 크기가 커지면 더 많은 매개변수에 더 많은 GPU 계산이 필요하기 때문에 대형 모델의 추론 속도는 점차 감소합니다. 추론 속도가 감소하면 사용자 경험이 더욱 악화되므로 대규모 모델 추론을 가속화하는 방법이 점점 더 중요해지고 있습니다.

3. 대형 모델 추론 가속을 위한 최적화 방향

Llama2 모델 구조

먼저 Llama 2 논문[9]을 참고하여 Llama 2 모델 시리즈의 구조를 간략하게 살펴보자. 현재 Llama 시리즈와 같은 대부분의 생성 언어 모델은 주로 Transformer 아키텍처의 디코더 모듈을 사용합니다. Huggingface 플랫폼에서는 이러한 유형의 모델 구조를 일반적으로 CausalLM이라고 하며 이는 인과 언어 모델입니다.

위 사진은 Llama2 대형 모델의 구조를 보여주고 있으며, 그 핵심은 Attention 계산(Llama Attention)입니다. 이는 전체 추론 프로세스에서 가장 시간이 많이 걸리는 모듈이기도 하며 대부분의 후속 최적화는 Attention을 기반으로 구현됩니다. Llama 2 모델의 구조를 더 잘 이해하기 위해 먼저 Llama2 모델의 전체 추론 과정을 간략하게 분해합니다. 관심이 없는 학생은 직접 건너뛰어도 됩니다.

사용자가 모델에 프롬프트를 제출한 후 모델이 수행하는 첫 번째 작업은 다음 문자(토큰)를 예측하고 예측된 문자를 입력에 추가하여 예측을 계속하는 것입니다. 이 프로세스는 모델이 STOP 토큰을 출력할 때까지 계속되며, 이때 예측이 중지되고 모델이 최종 결과를 출력합니다.
다음 캐릭터(토큰)를 생성하는 과정에서 모델은 N번의 Llama Decoder Layer 계산을 수행해야 합니다. 구체적으로 Llama-2-7B 모델은 32개의 계산을 수행하는 반면 Llama-2-13B 모델은 40개의 계산을 수행합니다.
Llama Decoder Layer에서 가장 중요한 계산 링크는 Attention 계산(Llama Attention)입니다. 추론 시간의 대부분은 Attention 계산에 소모되므로 Attention 계산의 효율성을 높이기 위해 다양한 최적화 기법이 설계됩니다.

대규모 모델 추론의 가속 방향은 무엇입니까?

Llama 2 모델의 구조 분석을 통해 대형 모델이 추론 계산 과정에서 다음과 같은 특성을 보인다는 결론을 내릴 수 있습니다.

전체 추론 과정에서 가장 시간이 많이 걸리는 부분은 주의력 계산입니다. Attention 계산의 속도 최적화는 전반적인 추론 성능을 크게 향상시킬 수 있습니다.
어텐션 계산 과정에서 키-값 캐시(KV Cache)가 많은 양의 비디오 메모리 리소스를 차지합니다. 13B 모델을 예로 들면 프롬프트 시퀀스를 처리하려면 약 3GB의 추가 비디오 메모리가 필요하며, 비디오 메모리의 이 부분은 자주 할당 및 해제되므로 비디오 메모리 조각을 줄일 수 있는 경우 많은 조각이 발생합니다. , 대형 모델의 처리량도 향상될 수 있습니다.
추론 과정에서 GPU는 수많은 매개변수를 처리하고 계산해야 합니다. 7B 모델에는 70억 개의 매개변수가 있고, 13B 모델에는 130억 개의 매개변수가 포함되어 있으며, 세계에서 가장 강력한 최신 모델인 DBRX는 1,300억 개의 매개변수를 포함하므로 이러한 매개변수의 효율적인 처리가 필요합니다. 여기에도 최적화의 여지가 있을 수 있습니다.

위의 세 가지 특성에 대응하여 업계에서는 현재 일반적으로 다음과 같은 다양한 효과적인 최적화 방법을 제안하고 있습니다.

1. FlashAttention-Attention 계산 속도 최적화

FlashAttention[1]은 Attention 연산자의 계산 결과를 변경하지 않고 Attention 연산자의 계산 속도를 향상시킵니다. FlashAttention은 다양한 모델과 작업에서 상당한 성능 향상을 보여줍니다. 예를 들어 BERT-large 및 GPT-2와 같은 모델에서 FlashAttention은 기본 구현에 비해 15%~3배의 엔드투엔드 가속을 달성할 수 있습니다.

2. PageAttention-KV 캐시 메모리 관리 최적화

PageAttention[3]의 목표는 비디오 메모리 조각화를 줄이는 것입니다. PageAttention을 기반으로 하는 VLLM 시스템은 시간 소비의 원활한 분배를 유지하면서 널리 사용되는 LLM(대형 언어 모델)의 처리량을 10배 이상 늘릴 수 있습니다.

3. 추론 중 MOE 감소 모델 매개변수

MOE(Mixture of Experts)[4]의 목표는 모델 추론 중 계산에 포함되는 매개변수의 수를 줄이는 것입니다.

실험 결과: Mixtral 모델은 대부분의 벤치마크 테스트에서 Llama 2 70B 모델보다 성능이 뛰어나며 추론 속도도 후자보다 6배 빠릅니다. 이 모델은 여러 언어를 지원하고 강력한 코드 생성 기능을 갖추고 있으며 특정 지침을 따르도록 정밀하게 구성할 수 있어 MT-Bench 벤치마크에서 높은 점수를 받았습니다.

위의 각 방향에 대해서는 나중에 자세히 소개하겠습니다.

4. FlashAttention-Attention 연산자 계산 최적화

FlashAttention은 FlashAttention-1[1] 및 FlashAttention-2[2]를 포함하여 Attention 연산자의 최적화를 설명하는 두 개의 논문을 발표했습니다. 최적화 원리를 이해하기 위해 FlashAttention-1[1]을 예로 들어 보겠습니다.

먼저 GPU의 메모리 계층 구조를 이해해 보겠습니다. 아래 그림은 FlashAttention-1[1] 논문에서 가져온 것입니다.

GPU의 메모리 계층은 SRAM, HBM 및 DRAM의 세 가지 주요 부분으로 구성됩니다. 다음은 A100GPU의 참조 구성입니다.

SRAM(Static Random Access Memory)은 액세스 속도(19TB/s)가 가장 빠르지만 용량은 상대적으로 작습니다(20MB).

HBM(고대역폭 메모리)은 대용량 저장 공간(40GB)과 고속 데이터 액세스(1.5TB/s)를 제공합니다.

여기서 구체적으로 DRAM(Dynamic Random Access Memory)은 GPU 외부의 메인 메모리를 의미하며, 용량은 가장 크지만(1TB 이상) 액세스 속도는 가장 느립니다(12.8GB/s).

위의 구성에서 알 수 있듯이 메모리 용량이 작을수록 처리 속도가 빨라집니다.

기존 Attention 계산 프로세스에서는 HBM에 액세스하여 수많은 입출력 작업이 완료됩니다. FlashAttention 알고리즘은 Attention 계산 프로세스를 최적화하여 계산 효율성을 향상시켜 HBM에 대한 액세스 횟수를 줄여주는 IO 인식 최적화 알고리즘입니다.

아래 그림은 FlashAttention-1[1] 논문에 나온 FlashAttention의 가속 방법을 보여줍니다.

FlashAttention은 Attention 메커니즘을 신속하게 계산하고 메모리를 효율적으로 사용하기 위해 영리한 트릭을 사용합니다. 즉, 일반적으로 많은 메모리와 컴퓨팅 리소스가 필요한 입력 데이터를 타일링하여 전체 거대한 Attention 매트릭스를 한 번에 처리하는 것을 방지합니다. 거대한 도서관(매트릭스)이 있고 FlashAttention 방법은 도서관의 책을 여러 개의 작은 더미로 나눈 다음 한 번에 한 더미의 책만 처리하는 것과 같다고 상상해 보십시오. 이렇게 하면 책을 모두 꺼내서 한 번에 테이블 위에 올려놓을 필요가 없습니다(큰 테이블과 많은 시간이 필요함).

특히, 행렬 계산을 수행할 때 FlashAttention은 데이터를 블록으로 나누고 계산 액세스를 위해 GPU의 빠르지만 소용량 저장소(SRAM)를 사용함으로써 느리지만 대용량 저장소(HBM)의 필요성을 효과적으로 줄입니다. 이는 계산 속도를 높일 뿐만 아니라 비디오 메모리의 필요성도 크게 줄여줍니다.

FlashAttention은 느린 스토리지에 대한 의존도를 줄임으로써 모델 성능을 유지하거나 개선하는 동시에 모델 훈련 속도를 크게 높일 수 있습니다. 예를 들어, BERT-large의 훈련은 MLPerf 1.1의 기록보다 15% 빠르며, GPT-2의 훈련 속도는 HuggingFace 및 Megatron-LM 기준선의 훈련 속도의 3배이며, 긴 시퀀스 필드의 훈련 속도는 증가합니다. 2.4배로.

아래 그림은 Huggingface on Flash Attention이 소개한 블로그[14]에서 가져온 것으로, Flash Attention이 매트릭스를 분할하는 방식을 더 잘 이해할 수 있습니다.

Flash Attention은 계산을 가속화할 수 있으므로 Flash Attention 계산을 지원하는 프레임워크는 무엇입니까? 기사 후반부에서 몇 가지 우수한 추론 프레임워크를 권장합니다.

5. PageAttention - 비디오 메모리 관리 최적화

PageAttention[3]의 개념은 원래 VLLM의 저자 권우석이 제안한 것으로 VLLM 추론 프레임워크의 가장 중요한 최적화 전략이기도 하다. 권우석 씨는 자신의 논문에서 PageAttention을 사용하여 LLM(대형 언어 모델) 서비스의 주요 문제를 해결하는 방법, 즉 대기 시간을 늘리지 않고 처리량을 향상시키기 위해 메모리를 효과적으로 관리하는 방법을 소개했습니다.

먼저 추론의 경우 대형 모델의 메모리 구조 분포를 이해해 보겠습니다. 다음 그림은 논문 [3]에서 가져온 것입니다.

이는 NVIDIA A100에서 13B 매개변수를 사용하는 대규모 언어 모델을 제공하기 위한 메모리 레이아웃입니다. 13B LLM의 매개변수는 각 요청에 대해 12G 비디오 메모리를 차지합니다. KVCache는 빠르게 증가하고 자주 할당 및 해제되며, 처리되지 않으면 시스템이 많은 수의 비디오 메모리 조각을 생성합니다.

그렇다면 VLLM은 PageAttention을 통해 비디오 메모리 조각화 문제를 어떻게 해결합니까? 아래 그림은 VLLM의 비디오 메모리 관리 기술인 기사 [14]에서 가져온 것입니다.

PageAttention은 키-값 캐시(KV 캐시)를 고정 크기 청크(또는 "페이지")로 분할하고 이러한 청크를 메모리에 비연속적으로 저장하는 방식으로 작동합니다. 이 방법은 운영 체제의 가상 메모리 및 페이징 기술에서 영감을 받아 메모리 리소스를 보다 유연하고 효율적으로 관리합니다.

기존 어텐션 메커니즘에서는 요청된 KV 캐시를 메모리에 지속적으로 저장해야 하므로 메모리 조각화와 메모리를 효율적으로 공유할 수 없다는 두 가지 주요 문제가 발생합니다. 메모리 조각화로 인해 배치 크기가 제한되고, 메모리를 공유할 수 없으면 데이터가 중복되어 귀중한 메모리 리소스가 낭비됩니다.

PageAttention은 다음 단계를 통해 이러한 문제를 해결합니다.

KV 캐시 분할: 각 요청에 대한 KV 캐시를 크기가 고정되어 있고 모델 및 하드웨어의 특정 요구 사항에 따라 조정될 수 있는 여러 개의 작은 청크로 나눕니다.
비연속 스토리지: 메모리에 연속적으로 저장되는 기존 KV 캐시 블록과 달리 PageAttention을 사용하면 이러한 블록을 물리적 메모리에 비연속적으로 배포할 수 있습니다. 이러한 방식으로 실제 필요에 따라 메모리 블록을 동적으로 할당하고 재활용할 수 있어 메모리 낭비가 줄어듭니다.
동적 관리: PageAttention은 운영 체제의 가상 메모리 관리와 유사한 방식으로 이러한 메모리 블록을 동적으로 관리합니다. 시스템은 현재 메모리 사용량에 따라 필요에 따라 KV 캐시 블록을 할당하거나 해제하여 메모리 사용량을 최적화할 수 있습니다.
메모리 공유: PageAttention은 서로 다른 요청 간 또는 동일한 요청의 서로 다른 시퀀스 간 KV 캐시 블록 공유도 지원합니다. 이러한 공유는 유연하며 블록 수준에서 발생할 수 있으므로 메모리 사용량을 더욱 줄이고 효율성을 높일 수 있습니다.

이러한 방식으로 PageAttention을 사용하면 LLM 서비스 시스템은 동일한 대기 시간을 유지하면서 메모리 낭비를 줄이고 메모리 공유를 향상시켜 요청 처리 처리량을 크게 향상시킬 수 있습니다.

PageAttention의 최적화를 통해 VLLM은 LLaMA 7B 및 13B의 처리량을 10배 이상 증가시켰습니다. 아래 그림은 기사 [11]에서 가져온 것입니다.

6. 추론 중 MOE 감소 모델 매개변수

최근 출시된 DBRX는 1,300억 개의 매개변수를 갖춘 세계에서 가장 강력한 오픈소스 대형 모델이며, Mistral의 8x7B 오픈소스 대형 모델은 모두 MOE 아키텍처를 기반으로 합니다. 더 많은 수의 매개변수를 가진 모델이 MOE 아키텍처를 사용해야 하는 이유는 무엇입니까? MOE 아키텍처의 성능 이점을 소개하기 위해 Mistral의 8x7B 오픈 소스 대형 모델을 예로 들어 보겠습니다.

MOE 대형 모델에 관해서는 먼저 일반 대형 모델과 MOE 대형 모델의 구조적 차이점을 비교해 보겠습니다. 위 그림을 참조하십시오. MOE 대형 모델에서는 대형 모델의 매개변수가 8개 그룹과 라우터로 구분됩니다. 각 그룹을 전문가 그룹이라고 합니다. 요청이 들어오면 환경부 대형 모델에서는 먼저 라우터가 8개의 전문가 그룹 중 2개를 선택하고 이 2개의 전문가 그룹만 계산에 참여합니다. 일반 대형 모델과 비교하여 모든 매개변수는 GPU 계산에 참여해야 합니다.

따라서 MOE 대형 모델 추론 속도는 동일한 수준의 일반 대형 모델보다 약 4배 빠릅니다.

Mistral MOE의 구현을 살펴보겠습니다. Mistral MOE는 mistral.ai에서 발표한 8*7B 대형 모델[12]이며, 이는 해당 전문가 계층의 구조입니다. 8*7B 대형 모델.

Mixtral 8x7B는 Mistral 7B의 아키텍처를 기반으로 하는 SMoE(Sparse Mixture of Experts) 언어 모델이지만 각 레이어는 8개의 피드포워드 블록(즉, 전문가)으로 구성됩니다. 각 토큰이 처리됨에 따라 각 계층의 라우팅 네트워크는 현재 상태를 처리하고 출력을 결합할 두 명의 전문가를 선택합니다. 각 토큰은 두 명의 전문가와만 상호 작용하지만 각 시간 단계에서 선택된 전문가는 다를 수 있으므로 각 토큰은 47B의 매개변수에 액세스할 수 있지만 추론 중에는 13B의 활성 매개변수만 사용됩니다.

Mixtral은 여러 벤치마크, 특히 수학, 코드 생성 및 다중 언어 이해 분야에서 탁월한 성능을 보여줍니다. Llama 2 70B 및 GPT-3.5와 비교하여 Mixtral은 대부분의 평가 지표에서 유사하거나 더 나은 성능을 보여줍니다. 특히 Mixtral은 Llama 2 70B(70B)보다 5배 적은 활성 매개변수(13B)를 사용하지만 거의 모든 범주에서 더 우수하거나 동일하게 성능을 발휘합니다.

MOE 대형 모델은 추론 속도를 줄이지 않고도 매개변수 수를 늘릴 수 있는데, 이는 향후 대형 모델의 개발 추세이다.

7. 텐서 병렬화 - 텐서 병렬화

GPU 카드가 여러 개인 경우 텐서 병렬성을 사용하여 대규모 모델의 추론 속도를 더욱 가속화할 수 있습니다.

매우 두꺼운 책이 있고 책 전체를 한 번에 복사하고 싶지만 복사기는 한 번에 몇 페이지만 복사할 수 있다고 상상해 보십시오. 이때, 책을 여러 부분으로 나누고, 각 부분을 따로 복사한 후, 마지막으로 복사된 부분을 모두 순서대로 합쳐서 책 전체의 복사를 완성할 수 있습니다.

텐서 병렬화에서 우리가 다루는 대형 모델은 두꺼운 책과 같고, GPU는 복사기와 같습니다. 단일 GPU는 전체 대형 모델을 한 번에 처리할 수 없기 때문에 모델(이 경우 가중치 텐서)을 여러 부분으로 나누고 서로 다른 GPU가 이를 별도로 처리하도록 해야 합니다(복사본 책의 여러 부분과 동일). 입력 데이터를 처리할 때 이는 책의 각 페이지를 별도로 복사한 다음 복사된 부분을 함께 연결하여 완전한 출력 결과를 형성하는 것과 같습니다.

이런 방식으로 작업을 공유함으로써 여러 GPU가 함께 작동하여 단일 GPU로는 완료할 수 없는 대규모 작업을 완료합니다. 이것이 텐서 병렬성이 작동하는 방식이며 이를 통해 매우 큰 모델을 처리할 수 있습니다.

기사의 사진[13]

Tensor 병렬성 기술은 여러 GPU에 분산되어 대규모 모델을 배포하는 데 사용됩니다. 행렬 곱셈을 예로 들면, 입력 텐서에 첫 번째 가중치 텐서를 곱한 경우 이 작업은 먼저 가중치 텐서를 열로 나눈 다음, 나눗셈 후 각 열을 입력 텐서와 곱하고 결합하는 것으로 간주할 수 있습니다. 이 제품들의 결과. 이러한 결합된 출력은 GPU에서 내보내지고 집계되어 최종 출력 결과를 형성합니다. 프로세스는 위 그림에 나와 있습니다. 기사 [13]을 참조하세요.

8. 권장 추론 프레임워크

이전 기사에서는 Flash Attention, Page Attention, MOE 및 텐서 병렬 기술과 같은 여러 가지 가속 및 최적화 기술에 대해 논의했습니다. 다음으로, 자체 실제 운영 및 평가를 바탕으로 현재 잘 수행되는 몇 가지 추론 프레임워크를 추천해 드리겠습니다.

9. 요약 및 전망

이 기사에서는 Flash Attention, Page Attention, MOE 및 텐서 병렬 기술을 포함하되 이에 국한되지 않고 대규모 모델 추론 속도를 향상시키기 위해 설계된 일련의 기술과 방법을 자세히 살펴봅니다. 전용 대형 모델 추론 클러스터를 프로덕션 환경에 배치 배치하여 70B 규모의 모델을 포함하여 추론 속도를 50%까지 줄이는 데 성공했으며, 이러한 기술을 프로덕션 환경에 안정적으로 적용하여 이러한 최적화 방법의 효율성과 유효성을 입증했습니다. 실용적인 사항.

다양한 분야에서 대형 모델의 활용이 증가함에 따라 어떻게 효과적으로 추론 속도를 향상시키고 추론 비용을 절감할 수 있는지가 과제가 되었습니다. 우리의 실무에서는 현재 사용 가능한 일부 가속 기술을 보여줄 뿐만 아니라 경험을 바탕으로 평가한 후 탁월한 성능을 보이는 여러 대형 모델 추론 프레임워크를 권장합니다. 이러한 제안은 독자가 많은 선택에 직면했을 때 자신의 요구에 가장 적합한 추론 프레임워크를 선택하는 데 도움을 주기 위한 것입니다.

미래에는 지속적인 기술 발전과 새로운 알고리즘의 출현으로 더 많은 가속 최적화 기술이 개발되어 대규모 모델 추론의 효율성을 더욱 향상시킬 것이라고 믿습니다. 마지막으로, 향후 대규모 모델 추론 속도를 향상시키기 위해 더 많은 새로운 기술과 방법을 깊이 논의하고 도입할 수 있는 기회도 기대됩니다.

참고자료

[1] FlashAttention: IO 인식을 통한 빠르고 메모리 효율적인 정확한 주의(https://arxiv.org/abs/2205.14135)

[2] FlashAttention-2: 더 나은 병렬성과 작업 분할을 통한 더 빠른 주의(https://arxiv.org/abs/2307.08691)

[3] PagedAttention을 사용한 대규모 언어 모델 제공을 위한 효율적인 메모리 관리(https://arxiv.org/abs/2309.06180)

[4] mixtral-of-experts(https://mistral.ai/news/mixtral-of-experts/)

[5] 전문가 혼합(https://arxiv.org/abs/2401.04088)

[6] MEDUSA: 다중 디코딩 헤드를 사용한 간단한 LLM 추론 가속 프레임워크(https://arxiv.org/pdf/2401.10774.pdf)

[7] 신경 언어 모델의 확장 법칙(https://arxiv.org/pdf/2001.08361.pdf)

[8] 정형원(OpenAI), Large Language Models (2023년), 서울대학교 강연

[9] Llama 2: 개방형 기반 및 미세 조정된 채팅 모델(https://arxiv.org/abs/2307.09288)

[10] 주의가 필요한 전부입니다(https://arxiv.org/pdf/1706.03762.pdf)

[11] https://blog.vllm.ai/2023/06/20/vllm.html

[12] https://arxiv.org/pdf/2401.04088.pdf

[13] https://huggingface.co/docs/text- Generation-inference/en/conceptual/tensor_parallelism

[14] https://huggingface.co/docs/text- Generation-inference/en/conceptual/flash_attention

[15] https://blog.vllm.ai/2023/06/20/vllm.html

* 문자/ 링공

이 기사는 Dewu Technology의 원본입니다. 더 흥미로운 기사를 보려면 Dewu Technology를 참조하세요.

Dewu Technology의 허가 없이 전재하는 것은 엄격히 금지되어 있으며, 그렇지 않을 경우 법에 따라 법적 책임을 추궁할 것입니다!

KubeAI 대형 모델 추론 가속화 실습 |

추천