하나의 기사에서 여러 제조업체의 대규모 모델 훈련, 추론 및 배포 전략을 이해합니다.

오픈소스 중국 커뮤니티 팀이 공유라는 이름으로 오픈소스 중국 커뮤니티의 뒷이야기를 전하는 첫 생방송을 진행했습니다."

4월 20일, 우한에서 제102차 원창회의가 성공적으로 개최되었습니다. 이번 호에는 우한 인공지능연구소(Wuhan Artificial Intelligence Research Institute), Huawei, MindSpore, JD Cloud, Gitee AI의 인공지능 전문가들을 초청하여 [대형 모델 경쟁 및 성능 최적화]를 주제로 강연을 진행합니다. 다음으로, 이번 이벤트의 멋진 순간을 살펴보겠습니다!

단체 사진 찍기 ✅

피자와 선물은 필수입니다!

다음은 기조연설에 대한 리뷰입니다. 아래 QR 코드를 스캔하고 "OSC 오픈 소스 커뮤니티" 비디오 계정을 팔로우한 후 "Live Replay" 페이지에 들어가 전체 비디오 리뷰를 볼 수 있습니다.

Liu Hao: 대형 모델 분석 및 추세 전망

우한 인공지능연구소 벤처캐피털 전환부장 Liu Hao는 "대형 모델 분석 및 추세 전망"이라는 주제를 공유했습니다. Liu Hao가 근무하는 우한 인공지능 연구소는 이르면 2020년부터 대형 모델 기술 연구를 시작했습니다. 2021년 7월에는 이미지, 텍스트, 음성을 포함하는 1,000억 개의 매개변수를 갖춘 세계 최초의 3가지 모드 대형 모델을 출시했습니다.

Liu Hao는 인공 지능 기술에 대한 초기 연구에서 세 가지 주요 문제가 있었다고 지적했습니다. 첫째, 일반화 능력이 매우 낮고 유사한 문제만 해결할 수 있었습니다. 둘째, 모델 기능이 단일하여 서식 있는 텍스트를 해결할 수 없었습니다. 셋째, 과거에는 데이터 주석에 대한 수요가 너무 컸습니다. 대형 모델은 특히 ChatGPT 출현 이후 이러한 세 가지 측면에서 문제를 해결할 수 있습니다. ChatGPT의 성공은 인공지능의 많은 다운스트림 작업이나 다운스트림 모델이 생산 라인에 진입할 수 있어 인공지능 제품화 시대가 열리고 기술자가 기본 모델 제작에 집중할 수 있게 되어 더 많은 사람들이 인공지능 산업에 참여할 수 있음을 의미합니다. .

또한 대형 모델은 저장, 컴퓨팅 능력, 운송 용량 및 기타 링크의 자극을 자극했으며 대형 모델을 통해 많은 업스트림 및 다운스트림 산업을 연결했습니다.

기술적으로 말하면 국내외의 많은 대형 모델은 여전히 기본적으로 이전 MoE 아키텍처를 사용하지만 대형 모델은 우수한 엔지니어링 및 제품 변형을 거쳤습니다. 모델 매개변수가 660억을 넘은 이후 설명할 수 없을 것 같은 능력이 등장하는 등 인공지능의 설명할 수 없는 부분이 더욱 강해졌다. Liu Hao는 OpenAI가 ChatGPT를 효과적으로 만들기 위해 사용하는 방법이 여전히 블랙박스라고 믿고 있지만 지식, 세계 인식 및 모델링 및 기타 문제에 대한 통합 표현 및 추론을 위한 경로를 탐색했습니다.

빅모델은 연구모델뿐만 아니라 서비스, 개발 모델에도 변화를 가져왔다. 예를 들어, 많은 회사들이 대형 모델 그래픽 카드 구독을 취소하기 시작했고 대형 모델 개발을 중단했습니다. 결국, 업계에서 대형 기본 모델을 만드는 대형 모델 회사는 소수에 불과하고 업계 전문가가 더 많을 수도 있습니다. 이는 대형 모델이 산업 생산 단계에 진입했으며 대형 모델을 기반으로 많은 도구가 형성된다는 의미이기도 합니다.

현재 Zidong Taichu 2.0은 3차원 포인트 클라우드와 같은 정보 양식을 추가하여 완전 모드 대형 모델로 업그레이드되었습니다. 동시에 우한 인공지능 연구소는 풀스택 국내 인공지능 개방형 서비스 플랫폼도 구축했다. 대형 모델을 기반으로 원스톱 플랫폼을 구축하고 컴퓨팅 파워+플랫폼의 새로운 모델을 채택했다. 한편으로는 기반을 사용하여 데이터를 미세 조정하고 다른 한편으로는 플랫폼과 컴퓨팅 성능을 완벽하게 결합할 수 있습니다. 현재 여러 AICC가 전국적으로 구현되어 풀 스택 현지화 적응을 완료하고, 고성능 포괄 컴퓨팅 성능을 활용하고, 산업 시나리오를 심층적으로 통합하고, 수천 개의 산업에 힘을 실어주는 대형 모델 적용을 가속화하고 있습니다.

마지막으로 Liu Hao는 대형 모델의 개발 동향에 대해 네 가지 주요 판단을 내렸습니다.

추세 1: 정보 기술 애플리케이션과 혁신 생태계는 다양한 지능 활동을 완료하기 위해 지속적으로 데이터를 공급하고, 애플리케이션 개발이 자연어 프로그래밍 모드로 진입하는 등 엄청난 변화를 겪었습니다.
추세 2: 의사 결정을 지원하기 위한 인간-기계 정렬과 같은 의사 결정 인텔리전스의 패러다임 재구축
트렌드 3: 소형화, 도메인화 방향으로 발전하여 일반 인지 AI 기반의 전문 인공지능으로 나아가고 있습니다.
추세 4: 휴머노이드 로봇과 상호 작용하는 대형 모델과 같은 보다 일반적인 인공 지능으로 이동합니다.

QR코드를 스캔하시면 "대형모델 분석 및 추세전망" 강의 다시보기를 보실 수 있습니다 ⬇️

Li Shuqiao: Shengteng에 대형 모델 최적화 기술 적용 및 구현

Huawei 소프트웨어 엔지니어 Li Shuqiao는 "Ascend의 대형 모델 최적화 기술 적용 및 구현"에 대한 기조 연설을 통해 Ascend의 오픈 소스 가속 라이브러리에 대한 기본 지원 및 Ascend의 자체 지원을 포함한 세 가지 측면에서 Ascend의 대형 모델 컴퓨팅 성능 기능을 소개했습니다. 클라우드 네이티브 기반의 최적화 기술 및 생산 구현을 개발했습니다.

우선, 타사 모델, 타사 AI 프레임워크, 타사 가속 라이브러리, 타사 추론 서비스 등 4가지 주요 측면을 다루는 다양한 오픈 소스 라이브러리를 지원합니다. 예를 들어 Pytorch & Torch NPU 지원과 관련하여 Pytorch는 두 부분으로 나눌 수 있는 AI 프레임워크입니다. 상위 계층은 Pytorch 부분이고 하위 계층은 Torch NPU입니다. 상위 계층에서는 Ascend가 등록을 통해 PyTorch에 기본 연산자와 사용자 정의 연산자를 등록하므로 하위 Torch NPU의 경우 오픈 소스 기여를 통해 체크포인트, FSDP, Dataloader Device 등 많은 모듈이 최적화됩니다. 기능을 지원하여 NPU에 대한 기본 지원을 활성화합니다.

또한 Ascend는 onnxRuntime 범용 모델 프레임워크도 지원합니다. Pytorch, TensorFlow, MindSpore 등 다양한 프레임워크를 onnx 형식으로 저장할 수 있으며, onnxRuntime은 통합 형식을 실행하고 호출할 수 있습니다. Ascend의 기본 지원은 이미 onnxRuntime 라이브러리를 지원하므로 여러 프레임워크를 연결하는 것이 매우 편리하고 사용이 간편합니다.

모델 압축 측면에서 DeepSpeed는 대규모 모델을 압축하여 더 효과적으로 배포하고 실행할 수 있으며 현재 Shengteng의 기본 지원도 지원합니다.

이미지 처리, 기계 학습, 비디오 분석 등을 제공하는 컴퓨터 비전 라이브러리 OpenCV용입니다. Ascend는 백엔드 지원을 구현하여 Ascend NPU 데이터 구조 AscendMat 및 18개의 고주파 인터페이스를 제공하고 대부분의 운영자의 성능을 30% 향상시킵니다.

코드 마이그레이션. Pytorch 및 TorchNPU를 기반으로 Shengteng에 대한 OpenCLIP의 기본 지원이 구현됩니다. 모델을 Shengteng 장치로 마이그레이션하기 위해 3줄의 코드를 구현할 수 있습니다.

둘째, Shengteng은 자체 개발한 대형 모델 최적화 기술을 보유하고 있습니다. Ascend가 자체 개발한 AscendSpeed 대형 모델 가속 라이브러리. 대규모 모델 교육은 많은 기술과 과제를 포함하는 매우 복잡한 프로세스입니다. 대규모 모델 교육에는 많은 양의 비디오 메모리 리소스가 필요하며 이는 어려운 문제이며 컴퓨팅 카드에 상당한 어려움을 초래합니다. 단일 컴퓨팅 카드의 비디오 메모리 리소스가 부족한 경우 여러 컴퓨팅 카드를 통해 계산을 수행하기 위해 Megatron 및 DeepSpeed와 같은 타사 대형 모델 가속 라이브러리가 모델, 입력 데이터 등을 분할하는 방식으로 업계에 등장했습니다. 최종적으로 집단적 의사소통을 통해 결과를 요약한다. Ascend는 고객이 대규모 모델 서비스를 Ascend 장치로 신속하게 마이그레이션할 수 있도록 AscendSpeed 가속 라이브러리를 제공하고 Ascend의 독점 알고리즘을 지원하여 즉시 사용성을 보장합니다.

Ascend는 또한 통합 추론 도구 체인의 입구 역할을 하고 고객에게 통합 개발 도구를 제공하며 원스톱 디버깅 및 튜닝을 지원하는 비교적 완전한 도구 체인 AIT(Ascend Inference Tools)를 제공합니다.

마지막으로 클라우드 네이티브 기반의 프로덕션 구현 측면이다. K8S 화산 스케줄러는 Ascend 장치의 선호도 스케줄링을 지원합니다. 또한 Kubernetes Ascend 장치 플러그인은 검색된 장치 수를 Kubernetes 시스템에 보고할 수 있습니다. 장치가 비정상 상태이면 Kubernetes 시스템에 보고되고 장치 오류가 발생하면 새 컨테이너가 삭제됩니다. 자동으로 끌어 올려 건강한 장비를 장착하고 훈련 임무를 재구성합니다. 현재 Vicuna가 기본적으로 지원하는 Space 백엔드는 이미 Kubernetes 장치 플러그인을 사용하고 있습니다.

QR 코드를 스캔하시면 "Shengteng의 대형 모델 최적화 기술 적용 및 구현" 강의 다시보기를 시청하실 수 있습니다 ⬇️

Yuan Lijiang: 지혜가 미래에 영감을 줍니다 - Yanxi 대형 모델 플랫폼

JD Cloud의 제품 이사인 Yuan Lijiang은 "Inspiring the Future with Intelligence - Yanxi Large Model Platform"에 대한 기조 연설을 했습니다. Yuan Lijiang은 대규모 모델을 기업 수준에서 구현하는 데에는 실시간, 설명 가능성, 보안 및 제어 가능성, 복잡한 의사 결정, 전문성이라는 5가지 주요 과제가 있다고 소개했습니다. 구현의 핵심은 실시간으로 올바른 결정을 내리는 방법입니다. 불확실하고 역동적으로 변화하는 환경에서 구현합니다.

Yuan Lijiang은 대규모 모델을 구현하는 두 가지 주요 방법이 있다고 소개했는데, 그 중 하나는 Copilot 모델이며, AI는 인간이 주도하는 방식으로 일부 시나리오에서는 텍스트 콘텐츠 생성과 같은 작업을 완료합니다. 처리., Vincent Tu 등 실제로 기업 입장에서는 인력을 최대한 풀어줘야 한다. 다른 하나는 기업의 복잡한 시나리오에 더 적합한 에이전트 모드입니다. 이 모드에서 인간은 더 높은 차원의 관점에 서서 인공 지능의 "멘토" 또는 "코치" 역할을 하며 목표를 설정하고 결과를 감독합니다. 대형 모델은 추론 능력을 발휘하고 적절한 도구와 변명을 사용하며 최종적으로 그에 따른 결과 피드백을 제공할 수 있습니다.

기업에서 대형 모델을 구현하는 데 사용되는 주요 기술도 변경되었습니다. 초기 Pre-train은 비용이 가장 많이 들고 막대한 투자가 이루어졌으며 나중에 SFT 모드의 비용은 감소했지만 검색을 기반으로 한 구현 효과는 좋지 않았습니다. 벡터 데이터베이스는 RAG 모드를 강화했지만 효과는 향상되었습니다. 지식 질문 및 답변 시나리오로만 제한될 수 있으며 결국 숙련된 기술 팀은 에이전트 모드에 더 많은 관심을 기울이고 다중 시나리오 지원을 달성할 수 있습니다.

JD.com의 금융 사업에서는 단순히 대형 모델 SFT나 LoRA에만 의존하여 대형 모델의 실질적인 문제 해결 능력을 향상시키는 것이 어렵습니다. 대신 에이전트 기술을 기반으로 기계를 사용하여 비즈니스 문제를 해결합니다. 구체적으로 에이전트를 사용하여 사용자 목표를 이해하고, 각 하위 작업을 분해하고, 각 하위 작업에 적합한 도구를 선택합니다. 이러한 도구는 JD.com 원래 비즈니스의 일부 인터페이스이며, 최종적으로 대규모 모델 기능과 결합되어 피드백을 제공합니다. . 이런 방식으로 일부 사용자의 복잡한 질문에 대한 답변이 더 정확해집니다.

현재 JD Yanxi의 전체 모델 플랫폼은 다층 제품 매트릭스를 구축했습니다. 가장 낮은 계층은 컴퓨팅 리소스, 스토리지 리소스, 고속 네트워크 및 리소스 스케줄링을 포함한 리소스 지원입니다. 모델 리소스 계층에서는 모델 관리 및 교육, 데이터 세트 처리, 모델 평가 및 배포와 같은 기능을 제공합니다. 모델 리소스 계층 위에는 다양한 도구의 통합에 중점을 둔 지능형 에이전트의 구성이 있습니다. 최상위 계층은 여러 엔터프라이즈 시나리오에 적응하는 애플리케이션 서비스 계층입니다.

JD Yanxi의 대형 모델 플랫폼에는 6가지 주요 기능이 있습니다. 컴퓨팅 리소스의 효율적인 관리 및 예약을 실현할 수 있는 리소스 예약 협업, 대규모 모델 개발 및 애플리케이션의 성능 최적화 및 비용 제어 보장, 대규모 모델 훈련에 대한 관리 및 지원 제공 사전 훈련, 미세 조정, 강화 학습, 평가 등이 효율적으로 수행됩니다. 대규모 모델을 통한 훈련 및 미세 조정을 통해 기업은 맞춤형 모델을 보유하여 정확성과 관련성을 높일 수 있습니다. 복잡한 작업을 수행하기 위해 기업의 기존 IT 시스템과 결합된 지능형 에이전트를 배포하여 모든 대형 모델 애플리케이션이 보안 표준과 법적 및 규제 요구 사항을 준수하도록 보장합니다. 지능형 애플리케이션 시장은 일련의 사전 구축된 대형 모델 애플리케이션을 제공합니다. 기업은 직접 배포하거나 플러그인을 제공하여 시스템에 대한 빠른 액세스를 제공할 수 있습니다.

QR 코드를 스캔하여 "미래에 영감을 주다 - Yanxi 대형 모델 플랫폼" 연설 재생을 시청하세요 ⬇️

Lin Jiazhen: 대형 모델 서버리스 추론 시스템

현재 일부 모델 당사자나 플랫폼은 개인 사용자에게 대규모 모델 기술을 사용할 수 있는 일부 무료 컴퓨팅 능력을 제공할 예정입니다. 대규모 모델 집계 플랫폼인 Gitee.AI도 개별 사용자에게 무료 컴퓨팅 능력을 제공하고 있습니다. Gitee AI 및 Tsinghua University 고성능 컴퓨팅 연구소의 전문 컨설턴트 Lin Jiazhen이 "대형 모델 서버리스 추론 시스템"에 대한 기조 연설을 했습니다.

Lin Jiazhen은 Gitee.AI가 현재 2,000개가 넘는 모델을 집계하고 있지만 무료 컴퓨팅 리소스가 제한되어 있으므로 이러한 무료 컴퓨팅 리소스를 필요에 따라 개발자에게 보다 효율적으로 할당해야 하며 이는 현재로서는 매우 어려운 일이라고 지적했습니다. 문제. 예를 들어 과거 컨테이너 기술을 외부 개발에 활용했을 때는 단일 컨테이너의 스왑인, 스왑아웃, 웨이크업이 매우 빨랐으나 대형 모델 시대에는 이것이 어려워졌다. 모델의 가동 및 절전 모드로 인해 과거에는 컨테이너의 스왑 인 및 스왑 아웃 관리가 어려웠습니다. 장면도 마찬가지로 효율적입니다.

서버리스 AI에는 간단한 배포, 즉시 사용 가능, 컴퓨팅 전력 사용 비용 절감, 주류 모델 적용 범위, 다양한 컴퓨팅 하드웨어 지원 등 네 가지 주요 이점이 있습니다. 현재 모델 엔진이나 컴퓨팅 파워를 구입하고 사용하는 방식에 문제가 있습니다. 즉, 사용자 프로그램, 모델, 추론 칩이 모두 하나의 컨테이너에 묶여 하드웨어 칩을 점유하고 컴퓨팅 파워 서비스를 사용하는 방식에 문제가 있습니다. 서버리스 추론 엔진은 컴퓨팅 성능 리소스를 통합 및 최적화하고, 여러 수준의 분해를 통해 애플리케이션, 모델 및 컴퓨팅 성능 간의 결합을 줄이고, 필요에 따라 컴퓨팅 성능을 할당하고, 리소스 활용도를 향상시킵니다.

서버리스 시스템 아키텍처는 세 개의 레이어로 나누어지며, 가장 낮은 레이어는 컴파일러 레이어로, 컨테이너에 모델을 로딩하는 방식은 원격 서비스를 호출하는 rpc 모드로 변경되지만, 인터페이스는 변경되지 않습니다. 모델과 칩을 실현하기 위한 백엔드 추론. rpc는 상위 수준의 추론 엔진에 제공됩니다. 추론 엔진은 실제로 계산이 발생하는 클러스터입니다. 이 수준에서는 데이터와 컴퓨팅 성능이 분리됩니다. 예를 들어, 10개의 카드가 3,000개의 모델의 스케줄링 요청을 충족하는 작업 시나리오를 가정하면, 이때 큰 모델을 하나의 카드에 고정적으로 로드할 수 있는 방법은 없습니다. 따라서 계산된 칩과 모델의 가중치를 분리하고, 컴퓨팅 파워 칩과 모델의 분리를 지원할 수 있는 이종 메모리 시스템인 TanserGraph에 모델을 배치합니다. 최상위 계층에서는 서버리스 계층, 애플리케이션, 추론 및 집계가 수행됩니다.

서버리스 시스템 아키텍처의 핵심 기능은 모델 가중치 문제를 해결하기 위한 이기종 상호 연결된 메모리입니다. 전체 데이터 센터 아키텍처에는 낮은 리소스 활용도 및 제한된 하드웨어 확장성과 같은 몇 가지 제한 사항이 있습니다. 분리 기술은 전체 아키텍처의 각 구성 요소를 물리적으로 분리하고 특정 상호 연결을 사용하여 각 구성 요소의 제어 인터페이스(제어판)를 데이터와 연결할 수 있습니다. 인터페이스(Data Plane)를 통해 다양한 자원의 온디맨드 할당 및 확장을 실현합니다. 또한 메모리 분해는 클라우드 환경 리소스 활용도를 향상하고 증가하는 메모리 리소스 수요를 더 쉽게 충족하는 등 클라우드 시나리오에서 애플리케이션 이점을 제공합니다.

그러나 기존의 계층적 메모리 시스템은 분리 아키텍처 하에서 높은 하드웨어 유연성에 적합하지 않으며, 시스템 확장성 또한 제한되어 있습니다. 또한 시스템의 내부 구조 제한으로 인해 기존 메모리 관리 인터페이스 기능도 제한됩니다. 이기종 상호 연결된 메모리는 하드웨어 액세스 통계, 프로그래밍 가능한 전략 및 페이지 마이그레이션이라는 세 가지 링크를 통해 이러한 문제를 해결할 수 있습니다. CPU를 예로 들면 PEB 기반 액세스 통계의 경우 하드웨어는 실행 중인 프로그램의 메모리 액세스 상태를 수집하고 명령, TID, 대상 주소 등을 기록한 다음 요청 시 모델 가중치를 로드하도록 지원됩니다.

또한 서버리스 시스템 아키텍처는 MLIR 기반의 다단계 신경망 컴파일 최적화 기술, 사용자 공간 격리 기술 기반의 경량 시스템 서비스 메커니즘 등 다양한 기능도 갖추고 있습니다. 서버리스 추론 엔진은 두 가지 핵심 지적 재산 기술을 기반으로 구축되었으며, 또한 현재의 다양한 주류 추론 시스템 최적화 기술도 통합합니다.

현재 Llama 3가 Gitee AI에서 출시되었습니다. 아래 링크를 브라우저에 복사하고 플랫폼에 들어가 체험해 보세요(초대 코드: llama3):

https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-English-Chat

QR 코드를 스캔하여 "대형 모델 서버리스 추론 시스템" 강의 다시보기를 시청하세요 ⬇️

Chen Ziheng: MindSpore 대형 모델의 핵심 기술 및 계획

MindSpore 연구 엔지니어 Chen Ziheng은 "MindSpore 대형 모델의 핵심 기술 및 계획"에 대한 기조 연설을 했습니다. Chen Ziheng은 업계에서 MindSpore가 기본 칩 하드웨어와 상위 수준 산업 애플리케이션 사이에 있다고 말했습니다. 대형 모델 기술 측면에서 MindSpore는 먼저 여러 기본 대형 모델을 포괄하는 기본 계층을 구축하고 상위 계층에서는 업계 파트너와 함께 산업 모델을 구축합니다. 또한 MindSpore는 국내외의 다양한 주류 오픈 소스 대형 모델과도 호환됩니다. 모든 대형 모델에 대해 MindSpore는 MindFormers, MindPET 및 MindRLHF의 세 가지 기본 패키지를 사용하여 대형 모델 개발, 미세 조정 및 배포의 전체 프로세스를 통합하여 즉시 사용이 가능하도록 합니다.

대규모 모델 훈련용. MindSpore는 계산 그래프 기반 컴파일러를 사용하여 병렬 전략을 구현합니다. 계산 그래프를 입력하면 MindSpore의 그래프 편집 프로세스가 병렬 전략에 따라 그래프를 분할하고 자동으로 데이터 재배열 연산자를 그래프에 삽입하여 여러 기계의 병렬 컴퓨팅 논리가 단일 기계의 논리와 일치하는지 확인합니다. 이러한 방식으로 MindSpore는 최상위 자동 정책 생성, 다차원 하이브리드 병렬성, 런타임 시 다차원 저장 및 이질성을 지원하는 최적화를 포함하여 여러 수준의 최적화를 달성합니다.

작년부터 MindSpore 팀은 대형 모델에 대한 병렬 교육도 수행해 왔습니다. 일반적인 상황에서 일반적인 대규모 모델 교육은 데이터 병렬성, 최적화 병렬성, 모델 병렬성, 파이프라인 병렬성 및 재계산을 포함한 5가지 병렬 전략을 혼합하여 사용합니다. MindSpore 팀은 이러한 병렬 모드에서 일반적인 모델의 시간이 많이 걸리는 상황을 분석한 결과 여기서 주요 비용이 운영자 수준 모델 병렬성 비용, 파이프라인 병렬성으로 생성된 거품, 데이터의 테일 타임을 포함한 세 가지 측면에 있다는 것을 발견했습니다. 병행. 그리고 클러스터 규모가 계속 증가하면 Wanka 클러스터에 도달할 때 이러한 오버헤드 문제가 더욱 분명해질 것입니다. 예를 들어 글로벌 배치 크기의 제한으로 인해 파이프라인의 버블 문제가 더욱 심각해질 것입니다. 통신 영역이 증가하면 통신 성능이 저하되고 데이터 병렬 처리 비율이 증가합니다.

이러한 문제와 관련하여 Chen Ziheng은 데이터를 둘로 나누는 다중 복사 병렬 모드 은닉 모델 통신과 같은 몇 가지 솔루션도 도입했습니다. 서로를 숨겨 운영자 수준 모델 병렬성을 최적화합니다. PipeLine 병렬 최적화를 위해 PipeLine Interleave를 통해 버블을 10% 미만으로 줄입니다.

또한, MoE 훈련 중에 Hot 및 Cold 전문가의 문제가 발생합니다. 전문가 Hot Migration을 위해 AlltoAll 통신량이 줄어들고 MoE 모델 훈련 성능이 향상됩니다. 고성능 훈련 외에도 대형 모델의 또 다른 문제는 전략 병렬성을 구현하는 방법입니다. MindSpore는 자동 병렬성을 채택하여 대형 모델의 병렬 전략 튜닝 시간을 몇 달에서 몇 시간으로 줄일 수 있습니다.

배포 측면에서 MindSpore는 서버리스의 백엔드에 해당하며, 해결해야 할 것은 성능 문제입니다. MindSpore는 분산 병렬 추론, KV 캐시, 동적 시퀀스, 연속 배치 및 고성능 추론 융합 연산자를 사용하여 짧은 대기 시간, 높은 처리량 및 대규모 모델의 긴 시퀀스 지원을 갖춘 통합 추론 프레임워크를 구축합니다. 통합된 훈련 및 푸시 아키텍처를 통해 훈련부터 추론까지 원활한 연결이 가능합니다.

다음으로 MindSpore의 대형 모델 훈련 계획에는 Wanka 대형 클러스터 훈련 성능 최적화, Dense 대형 모델 성능 최적화, Sparse MoE 대형 모델 성능 최적화 등이 포함됩니다. 대형 모델 추론 측면에서는 MindSpore가 통합된 대규모 모델 훈련 및 푸시 아키텍처, 밀도가 높은 대규모 모델 추론 가속화, 희소 대규모 모델 추론 가속 등

QR코드를 스캔하시면 "MindSpore 대형모델의 핵심기술 및 기획" 강의 다시보기를 보실 수 있습니다⬇️

이번 이벤트 리뷰는 여기까지입니다. 제103회 Yuanchuang Fair 등록이 시작되었습니다. 보려면 클릭하세요⬇️

[단말기 대형모델 기술] OSC 소스혁신 컨퍼런스·선전역·103호 https://www.oschina.net/event/2332004