前言
最近打算重新整理下NetApp FAS(Lenovo DM)存储的巡检表格,网上看了下大多数都是7-mode,涉及新版Ontap及使用场景的不多,其实绝大数多的巡检内容均可以在集群状态下完成,我就按照我的理解,梳理下FAS系列巡检重点要关注的一些点,以及其他一些建议,抛砖引玉
巡检内容建议
巡检之前,需要明确巡检的NetApp的一些基本信息,如果之前用户未整理过相关文档,则建议在第一次巡检之前进行一个初步的统计,主要包括:
- 设备型号及序列号
- 管理员/审计管理员账号信息
- 管理地址信息,包括集群和节点的管理地址,SP地址
- 运行的业务及SVM的大致信息
有了基本信息后就可针对实际情况整理下巡检内容了
物理环境巡检
物理环境巡检包含存储及盘柜所在机房的基本信息,包括机房温湿度,设备外观及告警等
基本硬件信息/基础配置巡检
包含设备的基本集群,网络等信息的巡检,尤其是初次巡检是了解当前一台使用中存储信息的关键,尤其是一些网络的关键信息,包括物理口的连接速率,LIF是否再Home Node等都是需要关注的重点
#检查Ontap版本
::>version
#查看集群状态
::>cluster show
::>cluster ha show
#查看节点基本信息,包括运行时间等
::>system node show
#系统核心硬件及系统的状态检查
::>system health status show
::>system health subsystem show
#SP配置及运行信息确认
::>system service-processor show
#基本网络运行状态确认,包括物理端口及LIF
::>network interface show
::>network port show
::>network port ifgrp show
存储容量基本信息的确认,尤其现在Ontap 9.5后的新UI相关的容量展示很不友好,因此CLI中的AGGR和VOL的空间确认很关键,如果空间异常,再进一步看详细信息,包括制备方式,数据重删时产生的临时比对文件等
#AGGR当前状态
::>aggr show
#VOL当前状态
::>vol show
#磁盘柜信息
::>storage shelf show
#磁盘信息
::>storage disk show
筛选看下EMERGENCY和ALERT的日志,逻辑上这两个级别应该是empty,如果有的话需要重点关注并处理下
#收集系统日志
::>event log show -severity EMERGENCY
::>event log show -severity ALERT
虽然集群模式下可以巡检绝大部分内容,但有几个内容还是推荐在节点模式下看更为详细,在没有信息收集工具的情况下sysstat可以比较清晰的收集到一段时间的性能数据
#节点详细状态收集
(节点)>sysconfig -a
(节点)>sysconfig -r
#节点环境参数确认
(节点)>environment status
#测试当前节点性能,包括带宽及IO等(建议业务高峰期)
(节点)>sysstat -su 1
业务层面巡检
除了所有FAS通用的巡检场景,另一部分就是根据实际的使用场景及功能,运行不同的巡检命令进行查看
NAS场景
主要看下当前的挂载及共享信息是否有异常,包括统计会话数较高的客户端
#NFS相关信息确认
::>nfs server show
::>export-policy show
::>export-policy rule show
#CIFS相关业务信息确认
::>cifs server show
::>cifs server share show
::>cifs server connection show
#查看当前会话数前十的客户端连接信息
::>statistics top client show
SAN场景
包括iSCSI及FC的lun挂载的场景
#查看当前LUN状态
::>lun show
::>lun mapping show
#查看FC相关适配器信息及运行状况
::>fcp adapter show
::>fcp initiator show
Snapmirror场景
#查看集群对等方的运行及健康状况
::>cluster peer show
::>cluster peer health show
#查看Snapmirror的运行状况
::>snapmirror show
::>snapmirror show-history
其他巡检建议
用户环境允许的情况下,尤其是有多台NetApp的情况下,建议部署NetApp自己的状态及性能的监控管理工具Netapp Unified Manager,该工具免费(OVA)且功能强大,可以收集多少NetApp的历史性能数据包括带宽,IO等,对NetApp的当前使用情况进行判断并对未来的扩展提供可靠依据
巡检表格
以下自己整理了一份巡检表格,仅作参考,其他内容欢迎大家补充