슈퍼컴퓨팅 인터넷 통합 스토리지 플랫폼 기술 연구

안녕하세요 여러분, 저는 산둥성 컴퓨팅 센터(국가 슈퍼컴퓨팅 지난 센터)의 Wang Chunxiao입니다. 저는 2022년부터 슈퍼컴퓨팅 인터넷 프로젝트에 참여해 왔습니다. 저는 주로 컴퓨팅 네트워크용 통합 스토리지 플랫폼의 연구 개발을 담당하고 있으며, 많은 연구 끝에 마침내 Alluxio 플랫폼을 선택했습니다. 1년 이상의 노력 끝에 Alluxio의 지원과 도움에 대해 매우 감사하게 생각합니다.

다음으로, 슈퍼컴퓨팅 인터넷이라는 주제에 초점을 맞춰 세 가지 측면을 공유하겠습니다.

(1) 슈퍼컴퓨팅 인터넷 구축에 존재하는 문제점과 과제

(2) 슈퍼컴퓨팅 인터넷 통합 스토리지 플랫폼 핵심 기술 연구

(3) 슈퍼컴퓨팅 인터넷의 응용과 향후 발전

전체 공유 보기

1. 슈퍼컴퓨팅 인터넷 구축의 문제점과 과제

먼저, 2011년 설립된 지난국립슈퍼컴퓨팅센터에 대해 간략히 소개하겠습니다. 이곳은 우리나라 국내 서버 '썬웨이 블루레이'의 탄생지입니다. 물론 지금은 썬웨이 블루레이의 규모가 페타플롭스에서 늘어났습니다. 엑사스케일로. 2019년부터 국내 플랫폼을 기반으로 한 유니버설 플랫폼 개발 및 구축에 착수했습니다. 즉, CPU, GPU, 스토리지 대역폭이 상당한 규모에 도달한 Sunward 슈퍼컴퓨팅 플랫폼은 산둥성의 많은 산업에서 중요한 지원 역할을 하고 있습니다.

 

2009년부터 우리나라는 수많은 슈퍼컴퓨팅 센터를 순차적으로 설립해 2023년 8월까지 14개 국가급 슈퍼컴퓨팅 센터, 30개 이상의 지능형 컴퓨팅 센터, 500개 이상의 대규모 클라우드 데이터 센터를 보유하게 됩니다. 이 정도 규모로 글로벌 컴퓨팅 파워서플라이의 선두주자이기도 하다.

요즘에는 대형 모델 등 많은 것에 대한 수요가 급증하면서 컴퓨팅 성능의 일부 결함도 노출되었습니다. 이는 애플리케이션 개발의 복잡성과 불가분의 관계입니다. 오늘날의 애플리케이션은 더 이상 컴퓨팅 능력만으로는 해결할 수 없습니다. 과거에는 일부 데이터와 모델을 가져와서 특정 리소스에서 실행할 수 있었습니다. 이제 멀티 컴퓨팅 성능의 단계가 되었습니다. 상대적으로 대규모 애플리케이션 시나리오에서는 컴퓨팅 성능과 스토리지의 규모와 유형에 대한 요구가 있습니다. 예를 들어 클라우드 컴퓨팅, 고성능 컴퓨팅, AI 컴퓨팅 등 융합 컴퓨팅이나 우리나라가 제시한 동서양의 컴퓨팅 시나리오는 단순히 단순하게 생각하면 문제를 해결하기가 사실상 어렵다. 특정 영역의 컴퓨팅 성능이나 저장 공간을 늘립니다. 물론 우리나라의 컴퓨팅 파워 수요와 자원 배분에는 지역적 차이가 있다. 이는 우리나라가 슈퍼컴퓨팅 인터넷 구축을 제안한 본래 의도이기도 하다.

2023년 4월 과학기술부는 통합 슈퍼컴퓨팅 전력망과 서비스 플랫폼 구축을 위해 국가 슈퍼컴퓨팅 인터넷 구축 사업에 착수했다. 지난 국가슈퍼컴퓨팅센터도 슈퍼컴퓨팅 인터넷 단위 중 하나이다. 현재 하고 있는 일은 최적의 자원 배치를 달성하기 위해 광역 컴퓨팅 전력 저장 및 네트워크의 통합 자원 관리, 제어 및 조정을 수행하는 것이다.

지난(濟南) 국가슈퍼컴퓨팅센터는 2016년부터 슈퍼컴퓨팅 인터넷을 기획, 구축해 왔으며, 모든 수준에서 작업을 수행해 왔다. 물론 컴퓨팅 파워 네트워크의 구축과 적용에도 많은 문제가 있습니다.

1. 첫 번째는 다양한 클라우드 플랫폼, AI 플랫폼, 스토리지 플랫폼의 끊임없는 출현을 포함하여 다양한 컴퓨팅 파워 플랫폼의 문제입니다.

2. 두 번째는 국내 그룹 칩 표준을 포함한 이기종 리소스의 문제입니다. 이는 매우 다릅니다. 스토리지 시스템에도 다양한 인터페이스가 있어 매우 분산되어 있고 구조가 복잡하며 프로토콜이 많아 달성하기 어렵습니다. 상호 연결 및 상호 운용성, 통합 플랫폼을 구축해야 합니다.

3. 세 번째는 우리나라의 공통적인 문제인 컴퓨팅 파워의 불평등한 분배입니다. 산둥성을 예로 들면, 컴퓨팅은 지난(Jinan)에 있고 스토리지는 쯔보(Zibo)에 있는데, 중간 네트워크에 병목 현상이 발생하면 기본적으로 원격 마운트, 호출, 심지어 전송도 어렵습니다.

또한 운영 절차가 상대적으로 복잡한 해양 기상 원격 감지 분야와 같은 일부 복잡한 응용 시나리오도 있습니다. 그러나 이러한 작업은 다른 플랫폼에서 수행되어야 하거나 심지어 다른 지역에서 수행되어야 할 수도 있습니다. 통합 서비스 플랫폼이 없으면 작업이 어렵고 모든 플랫폼을 능숙하게 사용하기가 어렵습니다. 문제와 과제 이는 슈퍼컴퓨팅 인터넷의 핵심을 구축할 때 우리가 해결해야 할 문제이기도 합니다.

이는 국가, 기업/지역 수준, 엣지 수준의 데이터 센터가 상호 연결 및 계층적 분류를 달성할 수 있도록 하는 슈퍼컴퓨팅 인터넷의 프레임워크입니다. 상호 운용성은 컴퓨팅 성능, 스토리지 및 네트워크에 대한 비교적 쉽고 통합적인 액세스 및 운영을 가능하게 하는 것입니다. 물과 전기처럼 흐르고 다양한 사용자가 사용할 수 있도록 상위 레벨에 제공될 수 있으며, 일부는 혼합 사용자이기도 합니다. 예를 들어 알고리즘은 고성능과 AI를 모두 사용해야 합니다.

이는 당시 슈퍼컴퓨팅 인터넷 발전을 위한 산업 체인이었습니다. 과거에는 사용자가 슈퍼컴퓨팅이나 데이터센터를 통해 컴퓨팅 성능, 스토리지, 소프트웨어를 사용했고, 타사 애플리케이션 유닛도 있었습니다. 이제 우리는 중간에 상위, 중간, 다운스트림 정의의 3개 레이어가 있는 레이어를 추가했습니다. 첫 번째 레이어의 애플리케이션 유닛과 슈퍼컴퓨터는 병렬 리소스 제공자 역할을 하고, 슈퍼컴퓨팅 네트워크 운영 체제는 중간 레이어 역할을 하여 병렬 리소스를 제공합니다. 해당 컴퓨팅 성능 및 스토리지 네트워크. 운영 모델은 JD.com, Taobao 등의 플랫폼을 참조할 수 있으며 이를 중간 플랫폼으로 사용할 수 있습니다. JD.com이나 Taobao처럼 상품을 판매하지만 우리가 운영하는 것은 자원입니다. 이는 케이크를 자르는 것에서 함께 케이크를 만드는 것으로 변화하는 모델입니다.

2. 슈퍼컴퓨팅 인터넷 통합 스토리지 플랫폼 핵심기술 연구

이것이 현재 슈퍼컴퓨팅 인터넷의 구축 상황입니다. 산둥성에서 처음으로 시범 운영되었으며, 제남과 칭다오의 두 핵심 노드를 포함해 현재는 제남과 칭다오가 고속 상호 연결을 통해 운영되고 있습니다. 전용선을 사용하세요. sdone이나 인터넷을 사용하여 연결할 수 있는 에지 노드도 30개 있습니다. 동시에 우리는 7가지 유형의 28개 컴퓨팅 클러스터와 45개 스토리지 시스템에 연결했습니다. 스토리지 시스템의 통합 플랫폼은 우리의 첫 번째 슈퍼컴퓨팅 네트워크 운영 체제 버전의 규모입니다. 현재 상위 계층은 클라우드 컴퓨팅, HPC, AI 등 세 가지 유형의 서비스를 지원합니다. 주로 다음 세 가지 측면에서 리소스를 제공합니다.

1. 컴퓨팅 자원

2. 저장자원

3. 네트워크 리소스.

저는 통합 스토리지 플랫폼을 주로 담당하고 있기 때문에 통합 스토리지 플랫폼을 소개하는 데 집중하겠습니다. 이는 당시의 설계 프레임워크 다이어그램입니다. 실제로 통합 스토리지 플랫폼의 목표는 중요하지 않습니다. 그것은 하단이나 클라우드에 있는 모든 종류의 스토리지입니다. 우리 모두는 스토리지를 관리해야 합니다. 스토리지 시스템을 다루는 레이어는 Alluxio를 스토리지 기반으로 사용합니다. 이를 바탕으로 경로 최적화, 데이터 마이그레이션 전략, 암호화된 전송, 일관성 확인 등 일부 최적화 작업도 수행했습니다. 일부는 아직 검증 과정에 있으며 첫 번째 버전에 추가되지 않았습니다. 전반적인 계획.

이 사진은 통합 스토리지 플랫폼의 핵심 기술이 서비스 버스의 설계임을 보여줍니다. Alluxio를 기반으로 상위 레이어에 통합 스토리지 어댑터와 데이터 흐름 컨트롤러를 개발하고 세 가지 순환 전략을 내장했기 때문에 별도로 꺼냈습니다. 실시간 순환, 예약 순환, 자동 순환이 가능합니다. 또한 이 코드 계산 포털(위의 메인 포털)에 대한 저장, 데이터 및 데이터 전송 서비스를 제공하고 인터페이스 및 장착 기능을 제공할 수 있습니다. 통합 스토리지 어댑터와 마찬가지로 현재 다음을 수행할 수 있습니다.

1. 자동 스토리지 장착;

2. 인터페이스, 클라이언트, 명령줄을 포함한 다양한 데이터 액세스 방법이 모두 지원됩니다.

물론 이미 내장된 사용자 데이터 격리 및 최적의 저장 방법에 대한 연구도 수행했습니다. 데이터 흐름 컨트롤러는 많은 작업을 수행하며 세 가지 흐름 전략을 가지고 있습니다.

1. 실시간 전송은 주로 사용자를 위한 것입니다. 사용자가 당사 플랫폼에서 지난 저장소와 칭다오 저장소를 신청하기 때문에 실시간으로 데이터를 마이그레이션하려면 사용자가 원래 주소를 지정해야 합니다. 마이그레이션 대상과 전송 속도를 선택하고 자동으로 마이그레이션 전략을 일치시킵니다. 우리는 또한 다양한 상태의 작업 실행 시간을 계산하고 최적의 전략을 선택하기 위해 지능형 모델에 대한 연구를 수행했습니다.

2. 예약 전송. 예약 전송은 현재 해양 및 캠퍼스 시나리오를 대상으로 합니다. 예를 들어 학교나 바다의 현장 데이터는 일부가 비디오 데이터이고 데이터 규모가 특히 크기 때문에 가장자리에 있습니다. 조사를 하고 저장해야 하는 경우 실제로 엣지에 그러한 저장 장치가 없습니다. 이렇게 많은 양의 저장 장치가 없으면 매주 예약된 데이터 마이그레이션을 수행해야 할 수도 있습니다. 정의된 시간 내에 지정된 마이그레이션 소스 주소와 대상 주소를 구성합니다. 또한 지능형 모델을 사용하여 작업 시간과 마감일을 기반으로 최적의 전략을 선택합니다. 밤이나 네트워크 트래픽이 상대적으로 적을 때 수행하도록 선택할 수 있습니다.

3. 규칙 엔진을 기반으로 마이그레이션할 데이터와 위치를 지능적으로 선택하는 자동 전송 기능도 있습니다. 이러한 시나리오는 여러 가지가 있을 수 있으며, 이러한 시나리오를 여러 개 사용자 정의했으며 나중에 자동 흐름 시나리오에 대해 소개합니다. 데이터가 별도로 저장되고 계산되는지에 따라 판단됩니다. 예를 들어 Zibo에 저장되어 있는데 Jinan에서 계산하고 싶은 경우 네트워크 상태가 사용자의 동의를 허용하지 않으면 자동으로 마이그레이션할 수 있습니다. 그를. 물론, 메타데이터 데이터베이스의 모드 액세스와 핫스팟 데이터의 액세스 빈도를 결합하여 데이터 프리페치 여부를 결정할 수 있습니다.

이것은 현재 Alibaba Cloud를 포함하여 그림에 나열된 스토리지 시스템에 연결된 우리의 배포 계획입니다. 서비스 포털 명령줄, 클라이언트, API 등을 통해 외부 서비스를 제공할 수 있는 약 130개의 외부 인터페이스가 있습니다. 현재 배포에서는 여전히 Alluxio의 클래식 배포를 따릅니다. 이후 단계에서는 분산 배치를 달성하기를 희망합니다. 현재 네트워크 제한으로 인해 모든 수출이 지난에 집중되어 있습니다. 이미 16개 도시에 China Unicom이 설립되었지만 수출은 아직 자유화되지 않았습니다. 예를 들어 칭다오와 쯔보(Zibo) 간의 연결은 아직 완전히 테스트되지 않았습니다. 이러한 상황에서는 이 레이아웃에 문제가 없습니다. 모든 스토리지는 사용 시 Alluxio Master Jinan 일반 플랫폼에서 배포하고 호출해야 합니다. 칭다오에서는 지난의 마스터에게 할당을 알리지 않고도 로컬 마운트를 실현할 수 있습니다. 이는 실제로 한 단계를 더 추가하므로 현재 분산 배포에 대한 테스트 및 검증도 수행하고 있습니다.

이는 저장공간의 자동이전과 계산분리의 경우이다. 물론 이는 현재 스마트캠퍼스의 실제 시나리오이기도 하다.

우리의 스토리지 장치와 컴퓨팅 리소스는 모두 멀티 클라우드 관리 플랫폼이라고 불리는 통합 스토리지 플랫폼과 클라우드 플랫폼에서 관리되었습니다. 이 경우 우리의 컴퓨팅 네트워크 운영 체제는 전체 일정을 갖습니다. 이 환경에서는 현재 모든 데이터가 가장 오른쪽 데이터 센터에 존재하며, 이 데이터 센터는 Zibo에 있고 사용자는 Jinan에 있거나 훈련 작업을 제출한다고 가정합니다. , 제출 후 컴퓨팅 리소스, 사전 교육 환경 및 교육 환경이 위치를 지정하고 리소스를 생성할 위치를 결정하는 일반적인 일정이 있습니다. 왜냐하면 이 컨테이너는 수요에 따라 자동으로 생성되어야 하기 때문입니다. 데이터 뷰를 기반으로 생성됩니다(Alluxio의 데이터 뷰 레이어는 위에 만들어졌습니다). 데이터 보기 및 데이터 흐름 컨트롤러에 따라 데이터는 학습을 위해 원래 주소에서 대상 주소로 마이그레이션됩니다. 이 시나리오에는 실제로 네 가지 흐름이 필요합니다.

√ 원본 데이터 세트에서 사전 훈련 전처리 환경의 훈련으로의 흐름

√ 처리 후에는 교육을 위해 교육 환경으로 이동해야 합니다.

√ 마지막으로 모델이 사용자에게 피드백되어야 합니다.

√ 사용자가 구성한 경우 추론 작업을 수행하기 전에 최종 장면(예: 캠퍼스)으로 피드백해야 합니다.

따라서 우리는 여러 특정 산업 시나리오에서 유통 프로세스를 지정했습니다.

이것이 통합 스토리지 플랫폼 V1.0의 현재 인터페이스입니다. 서비스 포털과 관리 포털을 포함해 메인 포털에 공개됐다. 서비스 포털에는 총 6개 모듈과 20개 이상의 하위 모듈이 있다.

통합 스토리지 플랫폼의 경우 Alluxio 마스터 노드의 분산 배포 및 상위 계층의 통합 일정 관리를 포함하여 계속 후속 작업이 진행됩니다. 그런 다음 프리페치 설계, 연결 규칙을 포함하여 데이터 캐싱 메커니즘을 최적화하는 데이터 프리페치가 있으며, 더 중요한 것은 나중에 수행해야 하는 계층형 스토리지를 원한다는 것입니다.

3. 슈퍼컴퓨팅 인터넷의 응용과 향후 발전

다음은 현재 다양한 산업 분야에서 슈퍼컴퓨팅 인터넷이 적용되는 상황을 소개합니다.

우리는 2022년 하반기 슈퍼컴퓨팅 인터넷 개발에 집중할 예정이지만 실제로는 2016년부터 레이아웃을 구상해왔기 때문에 이미 해양, 재료, 기상, 환경 보호 등 다양한 산업 분야에 일부 적용 사례를 보유하고 있습니다. 생태학, 산업 시뮬레이션, 교육 및 기타 측면.

이것은 우리가 Laoshan Laboratory와 공동으로 구축한 상호 연결된 네트워크인 해양 결합 모델입니다. 보시다시피 해양에서의 계산은 상대적으로 복잡할 수 있습니다. 해양모델 계산과 대기모델 계산이 필요합니다. 현재 대기 모델은 칭다오 슈퍼컴퓨터에서 수행되고 해양 모델은 지난 슈퍼컴퓨터에서 수행된 후 파일 결합이 수행됩니다. 이는 2023년에 처음으로 원격 협업 컴퓨팅을 구현하여 좋은 결과를 얻었습니다.

원격 탐사 분야에서도 비교적 완전한 데이터 흐름 시나리오가 있습니다. 이것은 국립 지구 관측 과학 데이터 센터의 데이터입니다. 먼저 전용 회선을 통해 지난 슈퍼컴퓨터로 전송된 다음 블록 파일에 저장됩니다. 객체 등의 저장소에서는 일부 정렬 및 저장 작업을 통해 처리 후 데이터 제품이 생성되고 공유됩니다. 이는 또한 도메인 간 저장과 계산을 분리하는 데이터 수집 및 처리를 위한 최초의 시스템이기도 합니다. 우리는 또한 국립지구관측기탁전산센터 설립을 신청했습니다.

디지털 정부 분야에서는 전자정부 자체가 우리 부서에 있기 때문에 현재 산둥성 내 30개 지방 단위와 300개 정부 시스템의 효율적인 운영을 지원하고 있습니다. 물론 이는 주로 클라우드에서의 운영을 가능하게 하기 위한 것입니다. 리소스 탄력적 확장.

의료, 교육 등의 분야에서는 클라우드와 엣지 작업이 주로 이뤄지고 있다. 위에서 언급한 예정된 전송을 포함하여 Suanwang에서 제공하는 컴퓨팅 및 스토리지 네트워크입니다. 스마트 캠퍼스 시나리오에서 우리는 Qilu University of Technology의 프로젝트를 수행했으며 캠퍼스 애플리케이션 시나리오에서 더 많은 작업을 수행했습니다.

마지막으로 회사 소개를 부탁드리겠습니다. 당사의 애플리케이션은 전국 2,000개 이상의 기업/대학/기관에 적용되어 있으며, 국내외에서도 폭넓은 인정을 받고 있습니다. 나는 현재의 컴퓨팅 파워 자원 재고를 활성화하는 데 도움이 될 컴퓨팅 파워 네트워크를 구축하는 것이 실제로 필요하다고 생각합니다. 슈퍼컴퓨팅 인터넷이 있다면 컴퓨팅 자원의 활용도를 향상시키고, 컴퓨팅 파워의 화폐화를 가능하게 하며, 컴퓨팅 파워 센터, 슈퍼컴퓨팅 센터 및 기타 데이터 센터가 지속 가능하고 건전하게 운영되도록 해야 하며, 일부 슈퍼컴퓨팅 생태계에서는 더 나은 성능을 발휘할 수 있습니다. 환경 보호, 해양 및 원격 감지 분야의 응용 분야에 적용할 수 있으며 앞으로는 더 광범위한 응용 시나리오가 있을 것이라고 믿습니다.

"Qing Yu Nian 2"의 불법 복제된 리소스가 npm에 업로드되어 npmmirror가 unpkg 서비스를 중단하게 되었습니다. Zhou Hongyi: Google에 남은 시간이 많지 않습니다. time.sleep(6) 여기서는 어떤 역할을 합니까? 리누스는 "개사료 먹기"에 가장 적극적입니다! 새로운 iPad Pro는 12GB의 메모리 칩을 사용하지만 8GB의 메모리를 가지고 있다고 주장합니다. People's Daily Online은 사무용 소프트웨어의 마트료시카 스타일 충전을 검토합니다. "세트"를 적극적으로 해결해야만 Flutter 3.22 및 Dart 3.4 출시가 가능 합니다. 'ref/reactive'가 필요 없는 Vue3의 새로운 개발 패러다임, 'ref.value'가 필요 없음 MySQL 8.4 LTS 중국어 매뉴얼 출시: 데이터베이스 관리의 새로운 영역을 마스터하는 데 도움 Tongyi Qianwen GPT-4 수준 메인 모델 가격 인하 97% 증가, 1위안 200만 토큰
{{o.이름}}
{{이름}}

추천

출처my.oschina.net/u/5904778/blog/11046528