Slurm中集群配置文件之slurm_node.conf

1.slurm_node.conf简介

        slurm_node.conf 是 Slurm 集群的节点配置文件,包含有关集群节点的信息和设置。每个节点都需要有一个 slurm_node.conf 文件来配置节点特定的信息。这个文件通常位于节点的 /etc目录下,但可以通过在 slurm.conf 文件中设置 NodeName 属性来指定节点配置文件的位置。 

        slurm_node.conf 文件包含了节点的许多配置信息,例如节点的名称、IP地址、架构类型、CPU核心数量、内存容量、GPU类型和数量等等。这些信息都会被 Slurm 管理器(slurmctld)使用来分配作业和资源,并在节点上运行任务。因此,在 slurm_node.conf 文件中正确地配置节点信息非常重要,以确保 Slurm 集群的正常运行。

        此外,slurm_node.conf 文件还可以包含其他自定义属性,用于在节点上运行作业时指定其他特定的配置。例如,可以通过在 slurm_node.conf 文件中设置 PartitionName 属性来指定节点所属的分区,以及设置节点的空闲阈值(IdleProcs)和最大作业数(MaxJobs)等属性。这些属性通常是为了进一步优化 Slurm 集群的资源利用率而设置的。

2.Slurm_node.conf配置项

slurm节点配置文件 slurm_node.conf 包含了各个节点的配置信息。下面是一些常见的配置项:

NodeName:节点的名称,必须唯一,且与 slurm.conf 文件中的节点名称相同。

Sockets:节点上的 CPU 插槽数量。

CoresPerSocket:每个 CPU 插槽上的核心数量。

ThreadsPerCore:每个核心上的线程数。

RealMemory:节点上的实际内存量,以 MB 为单位。

State:节点状态,通常为 UNKNOWN、IDLE、MIXED 或 ALLOCATED。

Weight:节点的权重,用于调度决策。

PartitionName:节点所属的分区名称。

Feature:节点上的特性或标签,例如 CPU 型号、GPU 类型、网络速度等。

IdleProcs:节点上的空闲进程数。

MaxTasksPerNode:节点上最多可以同时运行的任务数。

Gres:节点上的通用资源,例如 GPU、FPGA 等。

以上是一些常见的 slurm_node.conf 配置项,不同的集群和节点配置可能会有所不同。需要注意的是,在修改 slurm_node.conf 文件之后,需要重新启动 slurmd 守护进程才能生效。

如下图所示,为配置好的slurm_node.conf配置信息

猜你喜欢

转载自blog.csdn.net/lovebaby1689/article/details/129882234
今日推荐