AIX下的ha高可用集群cluster

安装ha软件

一、安装软件

最稳定的版本是5.4.0,优先安装稳定版本5.4

安装依赖于包base.data, cluster的man包安装失败原因是缺少base.data包

安装所有cluster.开头的包，可以不安装cluster.man 包

二、打ha补丁

打补丁之前先执行指令：inutoc生成 .toc文件，然后smitty update_all升级cluster 到5.4.1.0版本

ha环境的搭建注意事项

一、ha配置为主备模式或者互备模式应该根据应用系统的要求选择，在设置资源运行的优先级时第一个节点就是资源组的首选运行节点。

二、node切换之前不需要varyoffvg ，ha可以自动varyoffvg并且mount 其中的fs

三、在切换oradatavg前，必须先shutdown 掉oracle，否则oracle会宕机

四、在不同节点切换vg时，在第一次切换到新节点之前必须先执行importvg，将vg添加到AIX的ODM库中，这样ha才可以varyonvg，否则找不到资源的路径，如果想回切资源，但是之前node上执行过exportvg 即修改掉了ODM中的vg指定路径，这样是无法varyonvg的，必须重新执行importvg指令添加vg的路径到ODM库中，ha才能自动激活vg。

五、ha在node间切换时，对vg只负责varyonvg 和varyonffvg 不负责importvg 和exportvg

六、ha节点间的自由切换不需要os密码认证，由系统后台进程通讯完成

七、删除cluster前必须要先停掉所有节点的集群服务，否则集群崩溃

八、集群节点间同步信息时，同步的是集群配置文件的内容，不是同步各个节点上的os中的内容。

搭建oracle ha步骤

一、安装oracle软件

1、

二、dbca创建oracle库

三、配置集群资源（service ip）

四、配置集群资源（oradatavg）

五、配置集群资源（app server）

六、不同node之间切换oracle

解决HA的脑裂问题

一、安装创建并发vg时必需的软件包clvm包，该包安装、升级、后必须重启os

clvm包的描述：Enhanced Concurrent Logical Volume Manager

软件包在aix6100-dvd1.iso中：安装时进入到installp/ppc目录下执行安装

软件包升级在6106中：升级时使用指令smitty update_all 直接选择全部升级到最新版本，不支持选择部分软件包升级，系统只支持相关软件包全部升级

二、确定共享存储

确定共享存储的方法有三种：

方法一：

在共享存储的服务器上lspv，如果对应hdiskn的PVID是相同的就可以确定为是共享存储

另外执行指令：bootinfo -s hdiskn，查看下对应存储的大小，共享存储的大小必定是相同的

方法二：

只针对IBM的存储才能生效，只对IBM的DS系统存储才能生效

执行指令：mpio_get_config -Av

显示结果中的 User Label列值是唯一的，在211和212机器上同时执行该指令，

如果对应hdiskn的 User Lablel列值相同，就说明是共享存储

方法三：

使用dbh_read指令，使用该指令前要确保共享存储上没有做心跳磁盘，否则就将测试信息写入共享存储的磁盘头了

在211端： /usr/sbin/rsct/bin/dhb_read -p hdisk8 -r 进入信息receive状态

在212端： /usr/sbin/rsct/bin/dhb_read -p hdisk8 -t 进入信息transate状态

如果在211端能成功接收到212端发送的测试信息，就说明hdisk8盘是共享存储

三、创建并发VG，做磁盘心跳

1、在211下创建hboravg 类型为enhanced concurrent 增加型并发vg，同时选择不自动active，并发vg做磁盘心跳只是使用了并发vg的vgda区，只使用磁盘头，不用设置系统重启时自动激活，

2、在211下：在并发vg下创建测试lv，目的是测试是否成功创建了并发vg，即该vg 是否可用做为并发vg来用， lv名称： sychlv

在创建lv前需要先activevg ： varyonvg hboravg

然后创建lv ： smitty mklv

3、211下：

deactive vg : varyoffvg hboravg

4、在212下导入：

导入vg ： Importvg -V mainNum -y hboravg

在212下能够正常显示vg中的lv，通常是lv的type显示不是？？就可以判定为正常

5、211和212端全部deactive vg

执行指令：varyoffvg hboravg

四、启动集群，激活gsclvmd进程，通过该进程来active并发vg，测试vg是否可以同步

1、启动集群，因为varyonvg -c hboravg激活到enhanced concurrent模式时必须有gsclvmd 进程，但是gsclvmd进程是由ha启动的，所以在激活前必须有gsclvmd进程存在

查看进程指令：ps -ef | grep gsclvmd

2、激活vg到enhanced concurrent模式

211和212端全部执行指令：varyonvg -c hboravg

vg激活后显示的状态不是active而是concurrent

3、测试是否是并发vg

在211端创建testlv，正常情况应该是自动同步到212端

在212端显示vg的情况：lsvg -l hboravg

应该可以显示出在211端创建的lv，正常情况自动推送到212端

在212下：

cd /dev

ls -l *test*

可以正常显示vg和lv对应的设备文件

五、添加并发vg到ha中，测试心跳是否成功

1、直接添加Configure HACMP Communication Interfaces/Devices

选择: Devices

选择： aix211 hdisk8 和aix212 hdisk8

2、同步集群

3、测试

（i）资源组目前运行在211上，

ifconfig en0 down ：资源切到了211的en1网卡上

ifconfig en1 down ：资源应该切换到212的en0上，同时seviceIP在211上消失

（ii）在212下，查看并确认资源切换是否成功，心跳是否成功

在212端： ifconfig -a |service IP资源应该可以成功切换到212上

重启211的两个网卡en0和en1，资源仍然正常运行在212节点上，并且212节点不会死机，应该可以正常接管资源组。

六、HA脑裂问题解决

总结：

整个过程操作顺序：

创建hboravg---->创建cluster--->add node--->descover---->add network-->add interface--

-->config resource --->add resource group --->资源装车show/change---->同步集群到各个节点---->启动集群---->varyonvg -c hboravg启动到Enhanced Concurrent模式---

---->创建测试lv验证并发vg----add device hdisk8(心跳磁盘)---->同步集群到各个节点

--->down网卡测试心跳盘是否生效

本文由虾米首发于【漫兮网（http://www.manxinet.com）】未经允许不得以任何方式转载，违者必将追究法律责任