병렬 슈퍼컴퓨팅 클라우드 멀티 카드 교육의 전체 프로세스(환경 구성부터 작업 제출까지)

목차

머리말

1. 공식 웹사이트에서 클라이언트를 다운로드하고 계정에 로그인하세요.

2. 노드 서버에 원격으로 연결

3. 설치환경

3. 코드와 데이터 세트를 서버에 업로드

4. 모델 훈련을 위해 컴퓨팅 노드에 훈련 작업을 제출합니다.

5. 훈련된 파일 다운로드 

발문


머리말

이 글의 개요: 병렬 슈퍼컴퓨팅 클라우드의 사용 과정은 화웨이 클라우드의 모델아트나 엘라스틱 클라우드 서버와 상당히 다르다.병렬 슈퍼컴퓨팅 클라우드를 처음 사용할 때 많은 초보자들이 구체적인 운영 과정을 이해하지 못할 수 있으므로 저자는 이에 대해 설명할 계획이다. 병렬 슈퍼컴퓨팅 클라우드 사용 방법에 대한 전체 가이드 슈퍼컴퓨팅 클라우드 멀티 카드 훈련 모델에 대한 튜토리얼.

저자 소개: 저자는 인공지능 연금술사입니다. 현재 연구실에서 주요 연구 방향은 생성 모델입니다. 다른 방향에 대해서도 어느 정도 지식을 갖고 있습니다. CSDN에서 인공 지능에 관심이 있는 친구들과 소통하고 싶습니다. 플랫폼을 공유하고 함께 발전해 보세요. 모두 감사합니다 ~~

 如果你觉得这篇文章对您有帮助,麻烦点赞、收藏或者评论一下,这是对作者工作的肯定和鼓励。  

1. 공식 웹사이트에서 클라이언트를 다운로드하고 계정에 로그인하세요.

공식 홈페이지 링크: https://cloud.paratera.com/

클릭하여 클라이언트를 다운로드하고 다운로드에 적합한 버전을 선택하세요.

그런 다음 귀하의 계정에 로그인하십시오

그림에서 볼 수 있듯이 우리가 주로 사용하는 슈퍼컴퓨팅 서비스는 다음과 같습니다.

빠른 전송: 주로 로컬 파일 리소스를 서버에 업로드하거나 서버 파일을 로컬에 다운로드하는 데 사용됩니다.

Putty: 원격으로 서버에 연결합니다. SSH와의 차이점은 Putty는 컴퓨터에서 로컬로 실행되는 반면 SSH는 병렬 슈퍼컴퓨팅 클라우드 클라이언트 인터페이스에서 실행된다는 점입니다. 개인적으로 Putty만큼 사용하기 쉽지 않다고 생각합니다.

콘솔 : 소모상태 확인 및 도움말 매뉴얼을 보기 위해 사용됩니다.

자세한 사용법과 소개는 아래에서 말씀드리겠습니다.

2. 노드 서버에 원격으로 연결

오픈 퍼티

 

구매한 슈퍼컴퓨팅 노드를 선택하고 연결하세요.

 

위 내용은 병렬 슈퍼컴퓨팅 클라우드에 대한 간략한 매뉴얼이다.

결론적으로:

Putty를 통해 연결하는 노드는 로그인 노드이며, 이 노드에서는 주로 환경을 설치하고 업로드된 압축 패키지의 압축을 푸는 데 사용됩니다. 하지만 Python 프로그램을 실행할 수 없습니다.

3. 설치환경

먼저 모듈 로드 anaconda/2021.11을 사용하여 anaconda 라이브러리를 로드하면 conda를 사용하여 로그인 노드에서 환경을 구성할 수 있습니다.

그런 다음 소스 활성화 [conda 환경 이름]을 사용하여 conda 환경에 들어갑니다. 추신: 병렬 슈퍼컴퓨팅 클라우드의 pytorch, tensorflow, mmcv 등의 라이브러리는 수동으로 컴파일하고 설치해야 하기 때문에, 조작에 익숙하지 않은 경우 병렬 슈퍼컴퓨팅 클라우드 엔지니어에게 직접 문의하여 계정과 pytorch를 제공하십시오. , python 및 pytorch를 설치하려는 경우 cuda 및 기타 버전을 사용하면 좋은 conda 환경을 만드는 데 도움이 됩니다.

 

conda list 명령을 사용하여 현재 conda 환경에 설치된 라이브러리를 확인하십시오.

새 라이브러리를 설치해야 하는 경우 다음 명령을 사용하여 설치하십시오.

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 코드와 데이터 세트를 서버에 업로드

빠른 전송 켜기

 해당 슈퍼컴퓨팅 계정에 연결

 

로컬 ZIP 압축 패키지를 빈 위치나 폴더에 끌어다 놓으면 자동으로 업로드됩니다. 그런 다음 Putty에서 다음 명령을 사용하여 ZIP 아카이브를 지정된 경로에 압축 해제합니다.

unzip /path/to/file.zip(压缩包路径) -d /path/to/destination(目标路径)

코드와 데이터 세트를 업로드하고 압축을 푼 후에는 모델 훈련을 시작하기 위한 셸 스크립트를 작성해야 합니다.

#!/bin/bash 
//比如是这个为开头

module load anaconda/2021.11 
//加载anaconda
module load cuda/11.3
//加载cuda
source activate python
//进入你的conda环境,这里的python要改为你自己的conda环境名

export WORLD_SIZE=4
//单机多卡的话使用多少张卡就设置为几

python -m torch.distributed.launch --nproc_per_node=4 /home/bingxing2/home/xxx/zjd/zijiandu/models/train.py
//同理_per_node也是设置为卡数,然后路径设置为自己模型的训练脚本路径

/var/www/borg/fuel/app/tasks/monitor_sync.sh/var/www/borg/fuel/app/tasks/monitor_sync.sh가 나타나는 경우: 11행: $'\r': 명령을 찾을 수 없음/var/ www/borg/fuel/app/tasks/monitor_sync.sh: line 12: 예상치 못한 토큰 `$'{\r'' 근처의 구문 오류 개행 문자와 함께 오류가 보고되면 이는 잘못된 쉘 스크립트 형식으로 인해 발생합니다. dos2unix 명령은 쉘 스크립트의 형식을 변환한 다음 쉘 스크립트를 다시 실행합니다.

dos2unix /home/xxx/avc/sss.sh(你的shell脚本的路径)

 4. 모델 훈련을 위해 컴퓨팅 노드에 훈련 작업을 제출합니다.

먼저 cd 명령을 사용하여 이전에 작성된 쉘 스크립트의 디렉토리로 들어갑니다.

 

그런 다음 sbatch --gpus=4 ./shell script name을 사용하여 훈련을 위해 컴퓨팅 노드에 스크립트 작업을 제출합니다. 여기서는 시연을 위해 4개의 A100을 사용합니다.

 

이는 제출이 성공했음을 의미합니다. 60373은 계산 프로세스 번호입니다. 이 프로세스 번호를 사용하여 나중에 계산 작업을 취소할 수 있습니다.

 

그런 다음 아래 그림과 같이 parajobs 명령을 사용하여 컴퓨팅 노드에 있는 각 그래픽 카드의 실행 상태를 확인합니다.

 

작업을 중지하려면 scancel 프로세스 ID를 사용하여 작업을 취소하면 됩니다.

 

로그 파일이며, 오류 메시지와 인쇄 정보가 모두 들어 있습니다.

5. 훈련된 파일 다운로드 

폴더의 파일을 직접 다운로드할 수는 없으며 먼저 두 번 클릭하여 왼쪽의 로컬 디스크에 들어갑니다.

 

그런 다음 다운로드한 파일을 저장할 경로를 입력하세요.

 

그러면 이때 파일을 마우스 오른쪽 버튼으로 클릭하여 해당 로컬 경로에 다운로드하면 됩니다. 

 

현시점 전체 병렬슈퍼컴퓨팅 클라우드컴퓨팅센터의 기본 모델 활용 과정 및 훈련 방법이다. 

 

나중에 문제가 발생하면 콘솔을 열 수 있습니다. 

 

도움말 문서 선택 

 

서버에서 다양한 명령을 사용하는 방법에 대한 튜토리얼이 포함된 해당 파티션의 사용 설명서를 선택하세요. 

발문

 如果您觉得这篇文章对您有帮忙,请点赞、收藏。您的点赞是对作者工作的肯定和鼓励,这对作者来说真的非常重要。如果您对文章内容有任何疑惑和建议,欢迎在评论区里面进行评论,我将第一时间进行回复。 

추천

출처blog.csdn.net/qq_35768355/article/details/132875292