【技术干货】如何利用新睿云搭建超级计算OpenHPC平台


优点:使用yum直接安装RPM包,标准方法,配置简单。


1. 准备好环境,3台基于CentOS7.0以上操作系统的云服务器,其中1台作为master管理节点,另外2台作为计算节点,分别为:

m1: 192.168.3.30

s1: 192.168.3.31

s2: 192.168.3.32


配置/etc/hosts,确保互相可以靠机器名查找,如:

[plain] view plain copy

  1. 192.168.3.30 m1  

  2. 192.168.3.31 s1  

  3. 192.168.3.32 s2  


2. 登录节点m1,s1,s2,安装epel-release:

[plain] view plain copy

  1. [root@m1 yum.repos.d]# <strong>yum install epel-release</strong>  

  2. 。。。  

  3. Installed:  

  4.   epel-release.noarch 0:7-9  

  5.   

  6. Complete!  


3. 在各节点安装和OpenHPC官方仓库:

[plain] view plain copy

  1. [root@m1 yum.repos.d]# <strong>yum install https://github.com/openhpc/ohpc/releases/download/v1.3.GA/ohpc-release-1.3-1.el7.x86_64.rpm</strong>  

  2. 。。。  

  3. Installed:  

  4.   ohpc-release.x86_64 0:1.3-1.el7  

  5.   

  6. Complete!  


4. master节点(m1)安装PBSPro server包:

[plain] view plain copy

  1. [root@m1 ~]# yum install -y pbspro-server-ohpc  


5. Slave节点(s1,s2)安装PBSPro execution包:

[plain] view plain copy

  1. [root@s1 ~]# yum install -y pbspro-execution-ohpc  


6. 配置Slave节点(s1, s2):

  • 修改/etc/pbs.conf

[plain] view plain copy

  1. PBS_SERVER=m1  


  2. 修改/var/spool/pbs/mom_priv/config

[plain] view plain copy

  1. /var/spool/pbs/mom_priv/config  


7. 启动PBSPro集群:

  • 分别在master(m1)和slave节点(s1, s2)上执行:

[plain] view plain copy

  1. [root@m1 ~]# systemctl enable pbs  

  2. Created symlink from /etc/systemd/system/multi-user.target.wants/pbs.service to /usr/lib/systemd/system/pbs.service.  

  3. [root@m1 ~]# systemctl start pbs  


[plain] view plain copy

  1. [root@s1 ~]# systemctl enable pbs  

  2. Created symlink from /etc/systemd/system/multi-user.target.wants/pbs.service to /usr/lib/systemd/system/pbs.service.  

  3. [root@s1 ~]# systemctl start pbs  


将Slave节点加入集群:

[plain] view plain copy

  1. [root@m1 ~]# . /etc/profile.d/pbs.sh  

  2. [root@m1 ~]# qmgr -c 'create node s1'  

  3. [root@m1 ~]# qmgr -c 'create node s2'  


检查节点情况:

  • [plain]  view plain copy

  1. [root@m1 ~]# pbsnodes -a  

  2. s1

  3. Mom = s1  

  4. Port = 15002  

  5. pbs_version = 14.1.0  

  6. ntype = PBS  

  7. state = free  

  8. pcpus = 1  

  9. resources_available.arch = linux  

  10. resources_available.host = s1  

  11. resources_available.mem = 918488kb  

  12. resources_available.ncpus = 1  

  13. resources_available.vnode = s1  

  14. resources_assigned.accelerator_memory = 0kb  

  15. resources_assigned.mem = 0kb  

  16. resources_assigned.naccelerators = 0  

  17. resources_assigned.ncpus = 0  

  18. resources_assigned.netwins = 0  

  19. resources_assigned.vmem = 0kb  

  20. resv_enable = True  

  21. sharing = default_shared  


  22. s2  

  23. Mom = s2  

  24. Port = 15002  

  25. pbs_version = 14.1.0  

  26. ntype = PBS  

  27. state = free  

  28. pcpus = 1  

  29. resources_available.arch = linux  

  30. resources_available.host = s2  

  31. resources_available.mem = 918488kb  

  32. resources_available.ncpus = 1  

  33. resources_available.vnode = s2  

  34. resources_assigned.accelerator_memory = 0kb  

  35. resources_assigned.mem = 0kb  

  36. resources_assigned.naccelerators = 0  

  37. resources_assigned.ncpus = 0  

  38. resources_assigned.netwins = 0  

  39. resources_assigned.vmem = 0kb  

    resv_enable = True  

  40. sharing = default_shared  


8. 提交测试作业,并查看作业运行情况。

[plain]  view plain copy

  1. [xxin@m1 ~]$ echo 'sleep 111' | qsub  

  2. 2.m1  

  3. [xxin@m1 ~]$ qstat  


注意:

  • 如果节点状态是 state-unknown,down,可能是因为防火墙引起的,需要关闭防火墙:

  • [plain]  view plain copy

  1. [root@m1 ~]# systemctl stop firewalld.service  

  2. [root@m1 ~]# systemctl disable firewalld.service  


提交作业不可以用root用户,需要使用普通用户。在集群中,可以建立统一用户管理系统,如LDAP,并且需要建立共享的/home存储,挂在到所有节点上(包括主节点和计算节点)

猜你喜欢

转载自blog.csdn.net/bingbob/article/details/80338286