1.slurm_node.conf简介
slurm_node.conf 是 Slurm 集群的节点配置文件,包含有关集群节点的信息和设置。每个节点都需要有一个 slurm_node.conf 文件来配置节点特定的信息。这个文件通常位于节点的 /etc目录下,但可以通过在 slurm.conf 文件中设置 NodeName 属性来指定节点配置文件的位置。
slurm_node.conf 文件包含了节点的许多配置信息,例如节点的名称、IP地址、架构类型、CPU核心数量、内存容量、GPU类型和数量等等。这些信息都会被 Slurm 管理器(slurmctld)使用来分配作业和资源,并在节点上运行任务。因此,在 slurm_node.conf 文件中正确地配置节点信息非常重要,以确保 Slurm 集群的正常运行。
此外,slurm_node.conf 文件还可以包含其他自定义属性,用于在节点上运行作业时指定其他特定的配置。例如,可以通过在 slurm_node.conf 文件中设置 PartitionName 属性来指定节点所属的分区,以及设置节点的空闲阈值(IdleProcs)和最大作业数(MaxJobs)等属性。这些属性通常是为了进一步优化 Slurm 集群的资源利用率而设置的。
2.Slurm_node.conf配置项
slurm节点配置文件 slurm_node.conf 包含了各个节点的配置信息。下面是一些常见的配置项:
NodeName:节点的名称,必须唯一,且与 slurm.conf 文件中的节点名称相同。
Sockets:节点上的 CPU 插槽数量。
CoresPerSocket:每个 CPU 插槽上的核心数量。
ThreadsPerCore:每个核心上的线程数。
RealMemory:节点上的实际内存量,以 MB 为单位。
State:节点状态,通常为 UNKNOWN、IDLE、MIXED 或 ALLOCATED。
Weight:节点的权重,用于调度决策。
PartitionName:节点所属的分区名称。
Feature:节点上的特性或标签,例如 CPU 型号、GPU 类型、网络速度等。
IdleProcs:节点上的空闲进程数。
MaxTasksPerNode:节点上最多可以同时运行的任务数。
Gres:节点上的通用资源,例如 GPU、FPGA 等。
以上是一些常见的 slurm_node.conf 配置项,不同的集群和节点配置可能会有所不同。需要注意的是,在修改 slurm_node.conf 文件之后,需要重新启动 slurmd 守护进程才能生效。
如下图所示,为配置好的slurm_node.conf配置信息