运维手册_HA_RHCS日常运维手册(923)

文档标识

文件状态：[] 草稿

[√] 正式发布

[ ] 正在修改RedHat HA维护手册

版本：1.0.0

编制孟东2015年12月20日

审核

批准年月日

生效日期：年月日

修订历史记录

日期版本修订说明作者

第一章引言 (4)

第二章集群状态工具总览 (4)

**. 显示群集和服务状态 (4)

**. 日志查看 (6)

第三章集群状态维护 6

**. 初始化RHCS (6)

**. 开启RHCS (7)

**. 关闭RHCS (7)

**. 查看RHCS状态 (7)

**. 手动切换资源组命令 (7)

**. ILO界面登录与主机硬重启 (8)

**. 异常应急情况处理步骤： (9)

**. F AILOVER测试9

第一章引言

本章描述在群集被安装和配置后所涉及的管理和维护任务。

第二章集群状态工具总览

群集状态工具显示了群集服务、群集成员、和应用程序服务的状态，以及和服务操作有关的统计数据。群集配置文件（由群集配置工具所维护）被用来决定如何管理成员、服务和群集守护进程。使用群集状态工具来启动和停止那个成员上的群集服务、重新启动应用程序服务、或把应用程序服务转移到另一个成员上。

2.1.显示群集和服务状态

监视群集和应用程序服务状态能够帮助识别和解决群集环境中的问题。

以下工具可以在显示群集状态方面提供帮助：

clustat 命令

日志文件消息

群集监视GUI

群集和服务状态包括以下信息：

群集成员系统状态

心跳频道状态

服务状态以及哪个群集系统在运行该服务或拥有该服务

监视群集系统的服务状态

使用群集状态工具来启动和停止那个成员上的群集服务、重新启动应用程序服务、或把应用程序服务转移到另一个成员上。当配置了群集服务，并相关的群集进程启动后，在shell提示符中，运行system-config-cluster，点击Cluster Management标签，就会显示当前群集的服务状态：

在shell提示下显示当前集群状态的快照，启用clustat工具，其示例的具体输出如下：

2.2.日志查看

hundsun70 log:

tail –f /var/log/message:

Aug 4 03:38:31 hundsun70 gconfd (root-9085): GConf server is not in use, shutting down.

Aug 4 03:38:31 hundsun70 gconfd (root-9085): Exiting

Aug 4 03:52:14 hundsun70 clurgmgrd[2629]: Stopping service service:oracle

Aug 4 03:52:18 hundsun70 rhsmd: In order for Subscription Manager to provide your system with updates, your system must be registered with the Customer Portal. Please enter your Red Hat login to ensure your system is up-to-date.

Aug 4 03:52:35 hundsun70 avahi-daemon[2512]: Withdrawing address record for 192.168.56.90 on eth0.

Aug 4 03:52:45 hundsun70 clurgmgrd[2629]: Service service:oracle is stopped

Hundsun71 log:

tail –f /var/log/message:

Aug 4 03:52:46 hundsun71 clurgmgrd[2396]: Starting stopped service service:oracle

Aug 4 03:52:46 hundsun71 kernel: kjournald starting. Commit interval 5 seconds Aug 4 03:52:46 hundsun71 kernel: EXT3 FS on sdc, internal journal

Aug 4 03:52:46 hundsun71 kernel: EXT3-fs: mounted filesystem with ordered data mode.

Aug 4 03:52:50 hundsun71 avahi-daemon[2287]: Registering new address record for 192.168.56.90 on eth0.

Aug 4 03:53:10 hundsun71 clurgmgrd[2396]: Service service:oracle started

第三章集群状态维护

3.1.初始化RHCS

在节点1上运行

service cman start (同时在节点2上开启service cman start)

在节点1上运行

service rgmanager start

在节点2上运行

service rgmanager start

3.2.开启RHCS

在节点1上运行

service cman start

service rgmanager start

在节点2上运行

service cman start

service rgmanager start

3.3.关闭RHCS

在节点2上运行

service rgmanager stop

service cman stop

在节点1上运行

service rgmanager stop

service cman stop

3.4.查看RHCS状态

#clustat

3.5.手动切换资源组命令

#clusvcadm –r stsrv –m stapp2

3.6.ilo界面登录与主机硬重启

3.7.异常应急情况处理步骤：

1）节点1假死或登录不了，HA未切换

手动reboot重启节点1

（ssh登录不了的情况下，登录ilo进行硬重启）

2）节点1硬重启后，HA仍未正常切换

手动切换资源组：

clusvcadm –r stsrv –m stapp2

3）手动切换仍未成功

用ilo登录节点2，更改节点2的IP，再重启应用。

4）切换成功后，节点1重启正常后，不要启节点1上的cman 和rgmanager服务

这样会造成资源回切，从而形成二次故障。

3.8.F ailover测试

[root@hundsun70 ~]# clustat -l

Cluster Status for new_cluster @ Mon Aug 403:49:342015

Member Status: Quorate

Member Name ID Status

--------------------

Hundsun70 1 Online, Local, rgmanager

Hundsun71 2 Online, rgmanager

Service Information

------------------

Service Name : service:oracle

Current State : started (112)

Flags : none (0)

Owner : vrhcs1

Last Owner : none

Last Transition : Mon Aug 402:44:352015

SQL> col host_name for a30

SQL>select instance_name,status,host_name from v$instance;

INSTANCE_NAME STATUS HOST_NAME

----------------------------------------------------------hundsun OPEN hundsun70

[root@hundsun71 ~]# clusvcadm -r "oracle" -m hundsun71

Trying to relocate service:oracle to hundsun71...Success service:oracle is now running on hundsun71

SQL> col host_name for a30

SQL>select instance_name,status,host_name from v$instance;

INSTANCE_NAME STATUS HOST_NAME

---------------- ------------ ------------------------------ hundsun OPEN hundsun71