전체 이벤트 리뷰를 보려면 클릭하세요: https://my.oschina.net/u/4489239/blog/11105657
5월 18일 심천 위안추앙 회의 미리보기로 이동하려면 클릭하세요: https://www.oschina.net/event/2332004
4월 20일, 우한에서 제102차 원창회의가 성공적으로 개최되었습니다. 이번 호에는 우한 인공지능연구소(Wuhan Artificial Intelligence Research Institute), Huawei, MindSpore, JD Cloud, Gitee AI의 인공지능 전문가들을 초청하여 [대형 모델 경쟁 및 성능 최적화]를 주제로 강연을 진행합니다.
현재 일부 모델 당사자나 플랫폼은 개인 사용자에게 대규모 모델 기술을 사용할 수 있는 일부 무료 컴퓨팅 능력을 제공할 예정입니다. 대규모 모델 집계 플랫폼인 Gitee.AI도 개별 사용자에게 무료 컴퓨팅 능력을 제공하고 있습니다. Gitee AI 및 Tsinghua University 고성능 컴퓨팅 연구소의 전문 컨설턴트 Lin Jiazhen이 "대형 모델 서버리스 추론 시스템"에 대한 기조 연설을 했습니다.

Lin Jiazhen은 Gitee.AI가 현재 2,000개가 넘는 모델을 집계하고 있지만 무료 컴퓨팅 리소스가 제한되어 있으므로 이러한 무료 컴퓨팅 리소스를 필요에 따라 개발자에게 보다 효율적으로 할당해야 하며 이는 현재로서는 매우 어려운 일이라고 지적했습니다. 문제. 예를 들어 과거 컨테이너 기술을 외부 개발에 활용했을 때는 단일 컨테이너의 스왑인, 스왑아웃, 웨이크업이 매우 빨랐으나 대형 모델 시대에는 이것이 어려워졌다. 모델의 가동 및 절전 모드로 인해 과거에는 컨테이너의 스왑 인 및 스왑 아웃 관리가 어려웠습니다. 장면도 마찬가지로 효율적입니다.
서버리스 AI에는 간단한 배포, 즉시 사용 가능, 컴퓨팅 전력 사용 비용 절감, 주류 모델 적용 범위, 다양한 컴퓨팅 하드웨어 지원 등 네 가지 주요 이점이 있습니다. 현재 모델 엔진이나 컴퓨팅 파워를 구입하고 사용하는 방식에 문제가 있습니다. 즉, 사용자 프로그램, 모델, 추론 칩이 모두 하나의 컨테이너에 묶여 하드웨어 칩을 점유하고 컴퓨팅 파워 서비스를 사용하는 방식에 문제가 있습니다. 서버리스 추론 엔진은 컴퓨팅 성능 리소스를 통합 및 최적화하고, 여러 수준의 분해를 통해 애플리케이션, 모델 및 컴퓨팅 성능 간의 결합을 줄이고, 필요에 따라 컴퓨팅 성능을 할당하고, 리소스 활용도를 향상시킵니다.
서버리스 시스템 아키텍처는 세 개의 레이어로 나누어지며, 가장 낮은 레이어는 컴파일러 레이어로, 컨테이너에 모델을 로딩하는 방식은 원격 서비스를 호출하는 rpc 모드로 변경되지만, 인터페이스는 변경되지 않습니다. 모델과 칩을 실현하기 위한 백엔드 추론. rpc는 상위 수준의 추론 엔진에 제공됩니다. 추론 엔진은 실제로 계산이 발생하는 클러스터입니다. 이 수준에서는 데이터와 컴퓨팅 성능이 분리됩니다. 예를 들어, 10개의 카드가 3000개 모델의 예약 요청을 충족하는 작업 시나리오를 가정하면, 이때 큰 모델을 하나의 카드에 고정적으로 로드할 수 있는 방법이 없습니다. 따라서 계산된 칩과 모델의 가중치를 분리하고, 컴퓨팅 파워 칩과 모델의 분리를 지원할 수 있는 이종 메모리 시스템인 TanserGraph에 모델을 배치합니다. 최상위 계층에서는 서버리스 계층, 애플리케이션, 추론 및 집계가 수행됩니다.
서버리스 시스템 아키텍처의 핵심 기능은 모델 가중치 문제를 해결하기 위한 이기종 상호 연결된 메모리입니다. 전체 데이터 센터 아키텍처에는 낮은 리소스 활용도 및 제한된 하드웨어 확장성과 같은 몇 가지 제한 사항이 있습니다. 분리 기술은 전체 아키텍처의 각 구성 요소를 물리적으로 분리하고 특정 상호 연결을 사용하여 각 구성 요소의 제어 인터페이스(제어판)를 데이터와 연결할 수 있습니다. 인터페이스(Data Plane)를 통해 다양한 자원의 온디맨드 할당 및 확장을 실현합니다. 또한 메모리 분해는 클라우드 환경 리소스 활용도를 향상하고 증가하는 메모리 리소스 수요를 더 쉽게 충족하는 등 클라우드 시나리오에서 애플리케이션 이점을 제공합니다.
그러나 기존의 계층적 메모리 시스템은 분리 아키텍처 하에서 높은 하드웨어 유연성에 적합하지 않으며, 시스템 확장성 또한 제한되어 있습니다. 또한 시스템의 내부 구조 제한으로 인해 기존 메모리 관리 인터페이스 기능도 제한됩니다. 이기종 상호 연결된 메모리는 하드웨어 액세스 통계, 프로그래밍 가능한 전략 및 페이지 마이그레이션이라는 세 가지 링크를 통해 이러한 문제를 해결할 수 있습니다. CPU를 예로 들면 PEB 기반 액세스 통계의 경우 하드웨어는 실행 중인 프로그램의 메모리 액세스 상태를 수집하고 명령, TID, 대상 주소 등을 기록한 다음 요청 시 모델 가중치를 로드하도록 지원됩니다.
또한 서버리스 시스템 아키텍처는 MLIR 기반의 다단계 신경망 컴파일 최적화 기술, 사용자 공간 격리 기술 기반의 경량 시스템 서비스 메커니즘 등 다양한 기능도 갖추고 있습니다. 서버리스 추론 엔진은 두 가지 핵심 지적 재산 기술을 기반으로 구축되었으며, 또한 현재의 다양한 주류 추론 시스템 최적화 기술도 통합합니다.
현재 Llama 3가 Gitee AI에서 출시되었습니다. 아래 링크를 브라우저에 복사하고 플랫폼에 들어가 체험해 보세요(초대 코드: llama3):
https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-English-Chat
QR 코드를 스캔하여 "대형 모델 서버리스 추론 시스템" 강의 다시보기를 시청하세요 ⬇️

{{o.이름}}
{{이름}}