西电高性能计算机平台遇到的问题

0. 要是高算平台联网,直接粘贴他给的Installation中代码就行。但是不能联网,就需要在自己电脑上把东西配好的文件传到平台再用。
还涉及到,Installation中代码是Linux脚本,所以windows系统去执行也需要方法。在Linux系统下执行wget或者git下载过慢,需要Linux终端翻墙。

1. 用手册里面source conda一个文件,把conda环境初始化,指令vim .bashrc可在终端编辑器打开编辑。

执行conda init bash ,在最后一个文件(home/19200300131/.bashrc)里写一下conda初始化的代码,会发现用户名前多了一个环境的名称(如base)。

另,conda默认换成清华源了,如果里面用pip装,需要用pip换一下源,手册里有。

2. 新建一个环境,叫old_pic,激活新环境:conda activite old_pic
依赖里面有dlib,需要cmake和glabelc6.2 6.9 ,而超算默认版本较低,每次需要激活。
安装requirement,还缺cmake,gcc和cmake编译dlib。

执行以下:
module load gcc/12.1.0
module load cmake/3.25.1

最后装requirement.txt :
pip install -r requirement.txt

 
3.提交作业时

提交作业前要conda init 部分重新加载一下,不然后面执行conda activitie执行不出来,因为提交代码上去执行的环境不是以个人用户身份执行的,是公共环境,不会自动sourse。

执行以下: 

前两句激活conda。第三句为了dlib,而dlib是需要C++的,gcc用于支持C++11

另:脚本里面所有的用户名不可以写~(波浪线就是用户根目录),会到用户根目录。只能到当前运行的用户目录,运行的时候在公用的目录下。写清具体路径。

  

4.不关闭xshell窗口,不需要很长时间去跑东西,要在在终端调试代码,可以执行:

jsub -q gpu sleep 5000

jjobs(得到任务被提交到某个gpu**)

ssh gpu**

就将运行环境切换到gpu**了(nvidia-smi命令可以查看gpu详情,挑一个低使用率的来用)

另:每ssh一下,环境变回base,根目录从代码目录下也变回了用户根目录(~):

所以要cd一下回到代码的目录下工作:

 总结:如果要实时看结果,用ssh登录过来跑。如果要一晚上训练,用作业提交脚本。

看报错用:cat error.作业号

猜你喜欢

转载自blog.csdn.net/qq_45790998/article/details/128944732