运维手册_HA_RHCS日常运维手册(923)
文档标识
文件状态:[] 草稿
[√] 正式发布
[ ] 正在修改RedHat HA维护手册
版本:1.0.0
编制孟东2015年12月20日
审核
批准年月日
生效日期:年月日
修订历史记录
日期版本修订说明作者
目录
第一章引言 (4)
第二章集群状态工具总览 (4)
**. 显示群集和服务状态 (4)
**. 日志查看 (6)
第三章集群状态维护 6
**. 初始化RHCS (6)
**. 开启RHCS (7)
**. 关闭RHCS (7)
**. 查看RHCS状态 (7)
**. 手动切换资源组命令 (7)
**. ILO界面登录与主机硬重启 (8)
**. 异常应急情况处理步骤: (9)
**. F AILOVER测试9
第一章引言
本章描述在群集被安装和配置后所涉及的管理和维护任务。
第二章集群状态工具总览
群集状态工具显示了群集服务、群集成员、和应用程序服务的状态,以及和服务操作有关的统计数据。群集配置文件(由群集配置工具所维护)被用来决定如何管理成员、服务和群集守护进程。使用群集状态工具来启动和停止那个成员上的群集服务、重新启动应用程序服务、或把应用程序服务转移到另一个成员上。
2.1.显示群集和服务状态
监视群集和应用程序服务状态能够帮助识别和解决群集环境中的问题。
以下工具可以在显示群集状态方面提供帮助:
clustat 命令
日志文件消息
群集监视GUI
群集和服务状态包括以下信息:
群集成员系统状态
心跳频道状态
服务状态以及哪个群集系统在运行该服务或拥有该服务
监视群集系统的服务状态
使用群集状态工具来启动和停止那个成员上的群集服务、重新启动应用程序服务、或把应用程序服务转移到另一个成员上。当配置了群集服务,并相关的群集进程启动后,在shell提示符中,运行system-config-cluster,点击Cluster Management标签,就会显示当前群集的服务状态:
在shell提示下显示当前集群状态的快照,启用clustat工具,其示例的具体输出如下:
2.2.日志查看
hundsun70 log:
tail –f /var/log/message:
Aug 4 03:38:31 hundsun70 gconfd (root-9085): GConf server is not in use, shutting down.
Aug 4 03:38:31 hundsun70 gconfd (root-9085): Exiting
Aug 4 03:52:14 hundsun70 clurgmgrd[2629]:
Aug 4 03:52:18 hundsun70 rhsmd: In order for Subscription Manager to provide your system with updates, your system must be registered with the Customer Portal. Please enter your Red Hat login to ensure your system is up-to-date.
Aug 4 03:52:35 hundsun70 avahi-daemon[2512]: Withdrawing address record for 192.168.56.90 on eth0.
Aug 4 03:52:45 hundsun70 clurgmgrd[2629]:
Hundsun71 log:
tail –f /var/log/message:
Aug 4 03:52:46 hundsun71 clurgmgrd[2396]:
Aug 4 03:52:46 hundsun71 kernel: kjournald starting. Commit interval 5 seconds Aug 4 03:52:46 hundsun71 kernel: EXT3 FS on sdc, internal journal
Aug 4 03:52:46 hundsun71 kernel: EXT3-fs: mounted filesystem with ordered data mode.
Aug 4 03:52:50 hundsun71 avahi-daemon[2287]: Registering new address record for 192.168.56.90 on eth0.
Aug 4 03:53:10 hundsun71 clurgmgrd[2396]:
第三章集群状态维护
3.1.初始化RHCS
在节点1上运行
service cman start (同时在节点2上开启service cman start)
在节点1上运行
service rgmanager start
在节点2上运行
service rgmanager start
3.2.开启RHCS
在节点1上运行
service cman start
service rgmanager start
在节点2上运行
service cman start
service rgmanager start
3.3.关闭RHCS
在节点2上运行
service rgmanager stop
service cman stop
在节点1上运行
service rgmanager stop
service cman stop
3.4.查看RHCS状态
#clustat
3.5.手动切换资源组命令
#clusvcadm –r stsrv –m stapp2
3.6.ilo界面登录与主机硬重启
3.7.异常应急情况处理步骤:
1)节点1假死或登录不了,HA未切换
手动reboot重启节点1
(ssh登录不了的情况下,登录ilo进行硬重启)
2)节点1硬重启后,HA仍未正常切换
手动切换资源组:
clusvcadm –r stsrv –m stapp2
3)手动切换仍未成功
用ilo登录节点2,更改节点2的IP,再重启应用。
4)切换成功后,节点1重启正常后,不要启节点1上的cman 和rgmanager服务
这样会造成资源回切,从而形成二次故障。
3.8.F ailover测试
[root@hundsun70 ~]# clustat -l
Cluster Status for new_cluster @ Mon Aug 403:49:342015
Member Status: Quorate
Member Name ID Status
--------------------
Hundsun70 1 Online, Local, rgmanager
Hundsun71 2 Online, rgmanager
Service Information
------------------
Service Name : service:oracle
Current State : started (112)
Flags : none (0)
Owner : vrhcs1
Last Owner : none
Last Transition : Mon Aug 402:44:352015
SQL> col host_name for a30
SQL>select instance_name,status,host_name from v$instance;
INSTANCE_NAME STATUS HOST_NAME
----------------------------------------------------------hundsun OPEN hundsun70
[root@hundsun71 ~]# clusvcadm -r "oracle" -m hundsun71
Trying to relocate service:oracle to hundsun71...Success service:oracle is now running on hundsun71
SQL> col host_name for a30
SQL>select instance_name,status,host_name from v$instance;
INSTANCE_NAME STATUS HOST_NAME
---------------- ------------ ------------------------------ hundsun OPEN hundsun71