IBMP750小型机日常维护介绍材料

IBMP750小型机日常维护介绍材料
IBMP750小型机日常维护介绍材料

IBM P750小型机

日常维护手册

一、服务器硬件运行状态检查

1.当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一排

小灯,与各硬盘位置一一对应)应显示为绿色。

2.当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘等。如果有

硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。

3.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,

则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。

如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。

二、HMC(硬件管理平台)管理与操作

HMC的两种访问途径:

1、在机房直接通过显示器和键盘进行管理维护等相关操作

2、通过web远程访问,登录HMC web管理界面,访问地址为:https://

1、登录HMC

1.1 浏览器访问连接HMC后,首页界面如下图所示。

1.2 点击下图所示链接,进入HMC验证登录界面。

用户名:hscroot

口令:

1.4 成功登录到HMC管理界面如下图所示。

在HMC console右上角有(hscroot | help | log off)链接,单击log off,会出现如下图所示注销界面:

选择Log off,系统返回到HMC初始登录界面状态。

3、重启HMC

左边导航栏中选择→ HMC Management → shut down or Restart,如下图所示,对HMC进行正常重

启及关机操作。

请谨慎对HMC进行关机和重启操作!

4、状态栏功能

状态栏位于HMC左下角位置,如下图所示,负责监控并反映管理系统资源状态和HMC状态。

单击每个图标状态可以列出详细状态,你可以查到更详细的帮助信息:

:非法操作,如果任何被管理的主机执行了非法操作,这个图标将会变亮。

:黄灯警告, 如果任何被管理的主机有错误并有黄灯被点亮,这个图标也将会变亮

:报错日志:日志中有报错信息,这个图标将会变亮,此项与

:摘要,摘要中会将有用信息做统计并显示在工作栏中。

5、Service Management

导航栏中Service Management强大的管理功能给用户日常维护提供了更简单直观的界面,如下图所示,

但日平时最常用的子项是Manage Serviceable Events,如下图步骤可以对HMC所管理的设备进行日常错误及时直观的观察,以确保IBM小型机能正常工作,下图就是基本的操作方法图示:

Service Management Manage Serviceable Events

6、Service Plans-分区管理与操作

6.1 如何查看小型机资源配置:

如上图红色标注所示,选中所需查看主机(备注:请不要同时选中多台主机及多个分区),在下拉菜单中选中“Properties”,打开参数窗口,通过“Properties”可以查看主机运行状态,CPU,内存,I/0等重要硬件系统参数,如下图所示。

同理,在分区区域中先中每分区后的Properties选项,便可以直观方便的掌握分区状态和资源配置信息。

6.2 如何开关机及激活分区:

关机。

开机。

Operation项中主要包含小型机及分区开关机,及消除报警灯这两项功能,如虽要对小型机下电操作,请先将图15中的分区Deactivate(建议:最好在操作系统中按照正常流程将操作系统shutdown),最后再将主机power off。

注意:非特殊情况,无专业人员指导,严禁进行开关机操作!

6.3 手动消除黄灯警告

如下两图所示,Operations中LED status,及Deactivate Attention LED两项中所指,针对不同分区或主机所报出的警告黄灯,进行特定的消除黄灯操作。

6.4 如何打开控制终端(Terminal Window)

在HMC上对分区操作系统进行操作,可以通过分区下拉菜单Console Window- Open Terminal Window 对选中分区进行操作,如图所示,操作界面如同telnet界面。

在HMC中同一分区只允许打开一个Terminal Window,如试图打开第二个窗口,系统提示如图17所示界面。

三、AIX系统日常维护

1、查看系统的错误记录

很重要,应该定期查看,如发现有硬件(H)类型的报错,应该及时关注。

在系统运行时,一些系统错误会记录在errlog 中,其中有些错误还会在终端上显示。

检查错误日志可用以下命令:

#errpt | more 查看系统所有的记录

IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION

E85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR

2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER

9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON 1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF 1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION

其中

IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。

TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年

T 为Type , 它记录的是错误类型

P :为永久错误,需引起注意

T :为临时错误。

C 为Class, 它记录的是错误种类,如

H : Hardware

S : Software

O : Errloger command messages

U : undetermined

RESOURCE_NAME 为错误来源

DESCRIPTION 为错误描述

#errpt -aj 查看系统详细记录内容

其中IDENTIFIER为错误编号,如#errpt -aj 0426104399

#errpt -dH 查看系统所有的硬件出错记录

2、日常检查服务器状态的项目及其相关命令

2.1 运行lsdev 命令配以各种参数,所列各种设备状态都应为Available。

#lsdev –C –H –S a 列出系统中可用设备。

#lsdev –Cc processor 列出系统中的所有CPU。

#lsdev –Cc memory 列出系统中的所有内存。

#lsdev –Cc disk 列出系统中的所有硬盘。

#lsdev -Cc adapter | grep ent 列出系统中的所有网卡

#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。

#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。

2.2 lspv命令

#lspv 显示系统中可用的PV。

#lspv hdiskn 显示hdiskn的具体信息。

#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。

2.3 lsattr命令

# lsattr –E –l mem0 列出系统中内存mem0的大小,本项目中内存有4GB。

2.4 lsvg命令

#lsvg 列出系统中所有的vg。

#lsvg rootvg 列出rootvg的详细信息。

#lsvg –o 列出激活的vg

2.5 oslevel命令

#oslevel 显示操作系统版本信息。

2.6 netstat命令

#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。

2.7 diag命令

通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为“No trouble found ”显示各部分工作正常。

2.8 lsps查看页面空间

lsps –a 查看PAGING SPACE的使用情况,如果使用率超过70%,就需要采取措施。

2.9 查看LV(卷)状态

lsvg –o | lsvg –il | grep –i stale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施2.10 查看mail

# mail,查看有否发给root用户的错误报告(mail)。

3、检查文件系统

查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。

如/ (根文件系统)满则会导致用户不能登录。

# df -k (查看AIX的基本文件系统)

Filesystem 1024-blocks Free %Used Iused %Iused Mounted on

/dev/hd4 24576 1452 95% 2599 22% /

/dev/hd2 614400 28068 96% 22967 15% /usr

/dev/hd9var 8192 4540 45% 649 32% /var

/dev/hd3 167936 157968 6% 89 1% /tmp

/dev/hd1 16384 5332 68% 1402 35% /home

除/usr文件系统,其他文件系统都不应太满,一般不超过80%。

4、性能监控与调优

4.1 通过topas来观察

topas能够将系统的全局信息,包括CPU、内存、磁盘、网络、文件系统、事件队列、文件等信息,排列在一个统一的界面上进行展示。

bash-4.3# topas

Topas Monitor for host:localhost EVENTS/QUEUES FILE/TTY

Wed Feb 22 10:42:00 2017 Interval:2 Cswitch Readch

Syscall Writech

CPU User% Kern% Wait% Idle% Reads Rawin

Writes Ttyout

Forks Igets

Network BPS I-Pkts O-Pkts B-In B-Out Execs Namei

Runqueue Dirblk

Waitqueue

Disk Busy% BPS TPS B-Read B-Writ MEMORY

PAGING Real,MB

Faults % Comp

FileSystem BPS TPS B-Read B-Writ Steals % Noncomp

PgspIn % Client

PgspOut

Name PID CPU% PgSp Owner PageIn PAGING SPACE

PageOut Size,MB

Sios % Used

% Free

NFS (calls/sec)

SerV2 WPAR Activ

CliV2 WPAR Total

SerV3 Press: "h"-help

CliV3 "q"-quit

SerV4

4.2 通过命令vmstat 1 来观察.

kthr memory page faults cpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

命令解析:vmstat 命令的输出可以反映系统整体运行状况,包括cpu、内存、虚拟页面、系统进程和系统调用情况。

检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.

检查MEM是否为瓶颈,分别检查Memory的两项数值和Page 的六项数值.

4.3 通过命令sar –mu –P ALL 来观察。

命令解析:sar可以用来收集反映系统运行状况,在这里主要是查看CPU的运行状况,CPU是否负载均衡,是否存在分配不均的情况。

4.4 通过命令ps gv | more来观察。

PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND

0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper

1 - A 1:33 103 7895

2 79044 32768 25 36 0.0 29.0 /etc/init

命令解析:ps可以用来查看进程的当前状态。在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU和memory 量.其中,%CPU表示进程所占用的CPU资源情况,%MEM表示进程所占用的内存情况。主要检查是否有标示为的僵尸进程耗用系统资源,以及informix 数据库的oninit进程的系统消耗情况。

4.5 通过命令iostat 1 –d hdiskX观察磁盘

在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat 1 –d hdiskX观察磁盘。

Disks: % tm_act Kbps tps Kb_read Kb_wrtn

命令解析: iostat可以用来查看系统的I/O的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,同时估算磁盘阵列读写速度。

4.6 通过命令netstat –a 进行查看。

Active Internet connections (including servers)

Proto Recv-Q Send-Q Local Address Foreign Address (state)

命令解析: netstat可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参数为state,如有死连接,state状态为fin_wait, 这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。

以上所有命令及参数的相关含义和详细信息,请参考AIX命令大全。

IBMPower740小型机+11G数据库维护教程

露露Power740小型机+11G数据库维护教程 硬件环境: 1、Power740小型机+AIX6.1操作系统 2、数据库版本:oracle 11.2.0.4 3、数据库安装模式:Oracle11R2+ASM+RAC(集群负载) 一、开机步骤 1、打开Power740小型机1和2开关机开关 两台服务器都要开机,在确定小型机电源处于关闭情况下开机,如果小型机处于开机状态跳过此步骤。 2、开启集群和数据库 小机开机后集群和数据库自动启动,一般不需要手工启动。 Ping 192.168.0.31\32\33\34\35 -t ping通后查询数据库状态。 通过实际IP登录小机1 登录方式1:windows开始菜单-运行 telnet 192.168.0.31 登录方式2:远程连接小机工具 登录方式3:直接在小机操作 用户名:root 密码:root #su – grid 切换到grid网格用户 $crs_stat –t 查询集群状态

ORACLE正常工作状态:3个gsd进程是OFFLINE 其他进程都是ONLINE。 此时完成开机和数据库启动操作,应用程序可以正常使用。 如果等待30分钟还没有正常启动,启动出现异常,可执行以下操作: #su – grid $srvctl start nodeapps -n dbserver1 $srvctl start nodeapps -n dbserver2 $srvctl start asm -n dbserver2 $srvctl start asm -n dbserver1 $srvctl start database -d lolo 单独启动监听 srvctl start listener -n dbserver1 srvctl start listener -n dbserver2 3、启动客户管理系统接口 远程桌面192.168.1.24->露露运营绩效管理系统->业务查询->WEB定时任务->【启动任务】4、启动EM 说明:EM为ORACLE数据库WEB管理,可以不启动,不启动不影响应用程序使用。 1)通过服务IP登录小机1 登录方式1:windows开始菜单-运行 telnet 192.168.0.33 登录方式2:远程连接小机工具 登录方式3:直接在小机操作 以下以登录方式1说明。 用户名:root 密码:root

小型机

小型机 百科名片 小型机 小型机是指采用8-32颗处理器,性能和价格介于PC服务器和大型主机之间的一种高性能64 位计算机。一般而言,小型机具有高运算处理能力、高可靠性、高服务性、高可用性等四大特点。 中文名:小型机外文名:minicomputer 开发商:DEC(数字设备公司)公司主要特点:高可靠性,高可用性,高 服务性开发年代: 70年代目录[隐藏] 简介 主要特点 RAS特性 蜥蜴计划 系统原则 [编辑本段 ] 简介 小型机

小型机是指运行原理类似于PC(个人电脑)和服务器,但性能及用途又与它们截然不同的一种高性能计算机,它是70年代由DEC(数字设备公司)公司首先开发的一种高性能计算产品。 小型机具有区别PC及其服务器的特有体系结构,还有各制造厂自己的专利技术,有的还采用小型机专用处理器,比如美国Sun、日本Fujitsu(富士通)等公司的小型机是基于SPARC处理器架构,而美国HP公司的则是基于PA-RISC 架构;Compaq公司是Alpha架构。另外I/O总线也不相同,Fujitsu是PCI,Su n是SBUS,等等。这就意味着各公司小型机机器上的插卡,如网卡、显示卡、SCS I卡等可能也是专用的。此外,小型机使用的操作系统一般是基于Unix的,像Sun、Fujitsu是用Sun Solaris,HP是用HP-UX,IBM是AIX。所以小型机是封闭专用的计算机系统。使用小型机的用户一般是看中Unix操作系统的安全性、可靠性和专用服务器的高速运算能力。 [编辑本段] 主要特点 现在生产小型机的厂商主要有IBM和HP等。IBM典型机器有RS/6000、A S/400等。它们的主要特色在于年宕机时间只有几小时,所以又统称为z系列(z ero 零)。AS/400主要应用在银行和制造业,还有用于Domino,主要的技术在于TIMI(技术独立机器界面),单级存储,有了TIMI技术可以做到硬件与软件相互独立。RS/6000比较常见,用于科学计算和事务处理等。 小型机仅仅是低价格、小规模的大型计算机,典型的小型机运行UNIX或者象MPE、VEM等专用的操作系统。它们比大型机价格低,却几乎有同样的处理能力。HP的9000系列小型机几乎可与IBM的传统大型计算机相竞争。 在高端小型机一般使用的技术有:基于RISC的多处理器体系结构,兆数量级字节高速缓存,几千兆字节RAM,使用I/O处理器的专门I/O通道上的数百G B的磁盘存储器,以及专设管理处理器。它们较小并且是气冷的,因此对客户现场没有特别的冷却管道要求。现在小型机跟中型机跟大型机之间没有绝对明确的界限了,因为IBM把很多原来只在大型机和中型机上应用的技术都在小型机中实现了。 小型机跟普通的服务器(也就是常说的PC-SERVER)是有很大差别的,最重要的一点就是小型机的高RAS(Reliability, Availability, Serviceability 高可靠性、高可用性、高服务性)特性。 [编辑本段] RAS特性

IBM P750小型机日常维护手册

IBM P750小型机 日常维护手册 一、服务器硬件运行状态检查 1.当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一排 小灯,与各硬盘位置一一对应)应显示为绿色。 2.当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘等。如果有 硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。 3.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作, 则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。 如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。 二、HMC(硬件管理平台)管理与操作 HMC的两种访问途径: 1、在机房直接通过显示器和键盘进行管理维护等相关操作 2、通过web远程访问,登录HMCweb管理界面,访问地址为:https://

1、登录HMC 1.1 浏览器访问连接HMC后,首页界面如下图所示。 1.2 点击下图所示链接,进入HMC验证登录界面。 1.3 输入用户名与口令,登录HMC。 用户名:hscroot 口令:

1.4 成功登录到HMC管理界面如下图所示。 2、注销HMC 在HMC console右上角有(hscroot|help|log off)链接,单击log off,会出现如下图所示注销界面:

选择Log off,系统返回到HMC初始登录界面状态。 3、重启HMC 左边导航栏中选择→HMC Management→shut down or Restart,如下图所示,对HMC进行正常重启及关机操作。 请谨慎对HMC进行关机和重启操作!

小型机服务器是做什么用的

小型机服务器是做什么用的? (2010-07-06 10:50:35) 转载 标签: 小型机服务器 励康小型机网(https://www.360docs.net/doc/cc6727525.html,) 关于小型机的话题近来比较热,因为很多无论是PC服务器还是安腾服务器都声称自己做到了“小型机”水准。但是随之却把老百姓给搅晕了,以前清晰的小型机概念越来越模糊,到底什么时候应该选择传统小型机,什么时候应该选择PC服务器呢?我把在IBM UNIX WORLD 上听到的IBM系统科技事业部System p系统工程师朱汉东先生的讲解搬来共享给大家。你从中找自己想了解的那部分吧 小型机说了很多年,PC服务器也是大家比较熟悉的,他们区别还是非常大的,UNIX 跟PC服务器的CPU不同,最简单台式机、笔记本用的CPU Intel的奔腾等非常清楚。但是提小型机处理器的名字都搞不清楚,现在他们用的CPU处理器都叫RISC处理器,常见的Intel包括AMD都是CISC处理器,那RISC跟CISC有什么区别,RISC是精简指令集计算机,CISC是复杂指令计算机。 RISC技术是IBM一个研究院在1974年发明的,IBM对计算机研究非常深入,在70年代就发现我们能够用20%的指令就可以完成80%的工作,并且这20%的指令都是非常简单和基础的指令。如果要另外完成20%工作需要非常复杂的指令,如果要在CPU里面实现指令,就导致CPU非常复杂,这个机器效率非常低,所以这就导致RISC技术的产生,RISC 技术改写了计算机发展的历程。技术产生导致RISC System/6000的诞生。 其实RISC技术,CPU是一种架构,这里面有非常多的型号,POWER5是比较典型的代表。IBM的POWER在RISC芯片里面典型代表,RISC有一个二次跟八次法则,它的效率非常高,功率非常低,可靠性非常高。CISC代表性是大家非常了解的x86,在至强这一代处理器是非常典型的,它的特点主频非常高,但是效率非常低,散热量非常大,曾经看到

公安局IBM小型机和存储维保服务方案书讲解

XX 市公安局交通警察支队 小型机和存储维保服务 技 术 方 案 XXXX 科技有限公司 2010年6月8日 目录 一、专业化第三方服务的需 求 . (3) 二、技术服务方案 (5) 1.服务对象和目标 (5) 2.服务内容要点 (6) 3.服务内容要点说明 . (7) 3.1保修期内服务范 围 . (7) 3.2服务响应 24小时报修电话— 80086060606 (8)

3.3维护间隔与维护情况汇 报 (8) 3.4定期巡检与预防性维 护 . (9) 3.5免费备件保 证 . (9) 3.6免费技术服 务 . (9) 3.7免费远程诊 断 . (10) 3.8技术人员保 障 . (10) 3.9保修期终 止 . ............................................................................................................................. 10 4. 服务质量保证 . (11) 4.1技术服务流 程 . (11) 4.2服务的监 督 . (12) 4.3紧急事件升级机 制 . (13) 4.4客户满意度调 查 . (14)

4.5备件管理监 督 . (14) 4.6项目组织监 督 . (14) 4.7服务文档管 理 . (14) 4.8服务质量评 估 . (14) 4.9违约赔 偿 . (14) 4.10保修终 止 . (15) 5. 技术服务组织方案 . (15) 6. 备件管理 (15) 6.1备件渠 道 . (15) 6.2备件管理流 程 . (15) 6.3本项目的备件准 备 . (16) 7.技术培训方案 (20)

集群系统介绍以及和小型机的对比

集群系统介绍以及和小型机的对比 下面将详细阐述集群系统的特点以及集群系统相对于传统的小型机系统在信息类服务领域中的优势。 1、目前多数信息中心建设的目标 ?高性能以及大规模数据仓库和数据挖掘 面对着日益飞速发展的互联网络,单个计算机系统的计算和应用能力正在接受着无比巨大的考验,在短短的几年当中,一些主流业务数据库系统的数据量已经从过去的几个G扩展到了目前的几十T甚至几千T,而且这样的业务数据还正在极大的速度增长着。例如一个安全系统的内部信息中心常常要提供各种各样的业务系统的功能如人口户政系统、警员业务系统、罪犯资料系统等等,随着人口流动能力的逐渐增大以及各种各样新兴的业务系统的上马,对信息中心机房服务器的硬件性能的需求也在不断提高。并且,随着犯罪分子的活动的复杂性的提高,在研究犯罪分子的规律的时候已经不得不引入诸如数据挖掘的手段,而这往往是对数据库系统的极大的考验。 ?高可靠性 信息中心作为一个政府信息的重要链路和服务提供的出口,在关键业务上对系统的可靠性要求是十分强烈的,通常一个数据中心需要对自身的系统机房的可靠性进行详细地评估并针对这样的可靠性评估制定一些相应的可靠性策略。目前大多数的信息中心在关键业务上采用了传统的单机方式或者双机热备的方式,但是这样的办法在可靠性上还是不能完全保证的,并且如果仅仅采用双机热备的方式,将会有大量的针对关键业务的主机服务器系统处于闲置状态,这显然是对资源的极大浪费。 ?高可扩展性 信息中心的建设是一个长期持续的过程,信息中心的工作方向也会随着上级机关各种不同业务系统的相继出台而有所变动,对于飞速发展的硬件设备来说,一方面资金上不允许,一方面也会造成资源的极大浪费,所以我们并不会一次购进足够多的设备,因此,整个系统的可扩展性将成为信息中心系统建设的一个至关重要的问题,那就意味着系统必须能够一方面在升级的过程中不淘汰原有的系统,一方面又能最大地节约升级成本。目前多数信息中心的建设采用单机服务器或者小型机模式,这种模式的可扩展性相对较差,新增加的升级系统

(完整版)小型机及存储维保服务方案

XXXX小型机和存储维保服务 技 术 方 案 XXXX 2015年5月15日

目录 一、专业化第三方服务的需求 _________________________________________________ 2 二、技术服务方案 __________________________________________________________ 4 1.服务对象和目标____________________________________________________________ 4 2.服务内容要点 _____________________________________________________________ 6 3.服务内容要点说明__________________________________________________________ 7 3.1保修期内服务范围_______________________________________________________ 7 3.2服务响应_______________________________________________________________ 8 3.3维护间隔与维护情况汇报_________________________________________________ 8 3.4定期巡检与预防性维护___________________________________________________ 8 3.5免费备件保证___________________________________________________________ 9 3.6免费技术服务___________________________________________________________ 9 3.7免费远程诊断___________________________________________________________10 3.8技术人员保障___________________________________________________________10 3.9保修期终止_____________________________________________________________11 4.服务质量保证______________________________________________________________11 4.1技术服务流程___________________________________________________________11 4.2服务的监督_____________________________________________________________13 4.3紧急事件升级机制_______________________________________________________14 4.4客户满意度调查_________________________________________________________15 4.5备件管理监督___________________________________________________________15 4.6项目组织监督___________________________________________________________15 4.7服务文档管理___________________________________________________________15 4.8服务质量评估___________________________________________________________15 4.9违约赔偿_______________________________________________________________15 4.10保修终止______________________________________________________________16 5.技术服务组织方案___________________________________________________________16 6.备件管理___________________________________________________________________16 6.1备件渠道_______________________________________________________________16 6.2备件管理流程___________________________________________________________16 6.3本项目的备件准备_______________________________________________________17 7.技术培训方案 _____________________________________________________________17 7.1专业培训内容___________________________________________________________17 8.免费的技术增值服务________________________________________________________17 8.1提供系统及应用整合方案_________________________________________________18 8.2出保期后技术支持服务___________________________________________________18

小型机和存储设备性能指标知识

?2005 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice 小型机和存储设备 性能指标知识

议题 小型机性能指标介绍 存储设备性能指标介绍

用户怎样选取计算机系统 系统属性 ?体系机构 -SMP,Cluster,NUMA,etc.?处理器类型 -CISC,RISC,EPIC,etc.?操作系统 -UNIX,Windows/NT,Linux ?存储

用户怎样选取计算机系统 系统性能 理论值 -浮点运算速度,内存带宽/延迟,I/O性能 业界标准测试指标 -TPC-C,SPEC,LINPACK,STREAM,etc. ISV应用测试指标 -SAP,FLUENT,LS-DYNA,Gaussian,etc. 用户自己开发得应用程序测试(Demo机实测)

业界标准测试 为某种特定类型得应用提供参数,来衡量各种计算机系统的性能 简化/加速用户系统选型的过程 为系统配置提供依据 –需求分析 –目标设定 –决策人容易理解 促进计算机生产厂商技术革新 问题 -不能完全代表用户应用的实际性能 -成为计算机生产厂商追逐的单纯目标

什么是TPC TPC是Transaction Processing Performance Council的所写,由字面可以知道这是一个“事务处理性能理事会”。这是一个由IBM、HP、Dell等联合组成的一个第三方评测组织。 TPC值一般都是各个系统在满配情况下的最优化后的得分。 TPC的几个指标 TPC-C:OLTP(联机事务处理)——工厂的MIS系统比较注重这个指标 TPC-H:Decision Support for Ad Hoc Queries(基于特定查询的决策支持) TPC-W:Web e-Commerce(互联网及电子商务) TPC-R:Decision Support for Business Reporting(基于商业报告的决策支持)

IBM小型机维护指导书

江西建行IBM小型机日常维护第一篇:日常维护部分 第二篇:故障处理部分 第三篇:安图特公司技术支持电话

第一篇日常维护部分 目录 第1章AIX系统管理日常工作(检查篇) (1) 1.1 常用的命令 (1) 1.2 语法介绍 (1) 1.2.1 vmstat:检查内存、CPU、进程状态 (1) 1.2.2 .................................... sar:检查CPU、IO 3 1.2.3 PS:检查进程状态命令 (3) 1.2.4 .............................. s vmon:显示进程占用内存 4 1.2.5 .................................. iostat:显示磁盘IO 4 1.2.6 ....................... n etstat, entstat:显示网卡信息 5 1.2.7 ............................... n o:显示tcpip参数设置 6 1.2.8 其它命令 (6) 第2章AIX系统管理日常工作(LV篇) (7) 2.1 IBM AIX系统管理的日常工作 (7) 2.1.1 开关机步骤 (7) 2.1.2 用户组及用户管理 (7) 2.1.3 文件系统维护 (7) 2.1.4 系统日常管理 (8) 2.1.5 系统备份 (8)

2.1.6 定时清洗磁带机 (8) 2.1.7 定时检查设备指示灯状态 (9) 2.1.8 简单故障的判断 (9) 2.1.9 熟悉ibm aix操作系统 (9) 2.2 关于IBM AIX的逻辑卷管理 (9) 2.3 LVM命令 (10) 第3章AIX系统管理日常工作(关键参数检查篇) (13) 3.1 AIO参数检查 (13) 3.2 磁盘阵列QUEUE_DEPTH参数检查 (14) 3.3 用户参数检查 (14) 3.4 激活SSA F AST-W RITE C ACHE (15) 3.5 IO参数设置 (15) 3.6 SYNCD DAEMON的数据刷新频率 (15) 3.7 检查系统硬盘的镜像 (15) 第4章AIX系统管理日常工作(性能分析篇) (17) 4.1 性能瓶颈定义 (17) 4.2 性能范围 (17) 第5章AIX系统管理日常工作(SHUTDOWN篇) (18) 5.1 概念 (18) 5.2 关机命令 (18) 第6章AIX系统管理日常工作(备份与恢复篇) (18) 6.1 用SMIT备份 (18) 6.2 手工备份 (18) 6.3 恢复系统 (19) 第7章HACMP的双机系统的管理和维护 (19) 7.1 HACMP双机系统的启动 (19) 7.2 HACMP双机系统的关闭 (20)

小型机日常检查流程

1、查看小型机前面板上的警告灯,如果有黄色显示,表示该系统出现问题,继续检查 2、检查硬件,外观观看硬件,是否出现问题(查看两台服务器的灯是否一致)。 3、检查文件系统 df –g Filesystem GB blocks Free %Used Iused %Iused Mounted on /dev/hd4 5.00 4.98 1% 2479 1% / /dev/hd2 20.00 17.96 11% 49315 2% /usr /dev/hd9var 5.00 4.95 2% 722 1% /var /dev/hd3 10.00 9.97 1% 165 1% /tmp /dev/fwdump 1.00 1.00 1% 4 1% /var/adm/ras/platform /dev/hd1 5.00 5.00 1% 7 1% /home /proc - - - - - /proc /dev/hd10opt 5.00 4.92 2% 1706 1% /opt /dev/fslv00 20.00 13.01 35% 16600 1% /oracle /dev/sg186lv 597.50 596.25 1% 16 1% /sg186 查看%Used的使用率有无大于85%的,如果有大于85%的,则相应的进行增大空间。 以上面得/home为例增大空间: chfs -a size='10G' /home 将/home增大到10G chfs -a size=+ 10G /home 将/home增大10G 4、检查系统出错日志 使用errpt|more命令检查 IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。 TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年 T:为Type,它记录的是错误类型 P:为永久错误,需引起注意 T:为临时错误。 C:为Class,它记录的是错误种类,如 H:Hardware S:Software O:Errloger command messages U:undetermined 其中引起关注的主要有P和H的错误 # errpt IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION 51E537B5 0112162310 P H sysplanar0 platform_dump saved to file 291D64C3 0112162310 I H sysplanar0 Platform dump data BFE4C025 0112162310 P H sysplanar0 UNDETERMINED ERROR 51E537B5 0112162210 P H sysplanar0 platform_dump saved to file 291D64C3 0112162210 I H sysplanar0 Platform dump data BFE4C025 0112162210 P H sysplanar0 UNDETERMINED ERROR 38A8D4BB 0112161110 I H ent3 HEA PORT DOWN AFA89905 0112160810 I O grpsvcs Group Services daemon started 97419D60 0112160810 I O topsvcs Topology Services daemon started 6D19271E 0112155910 I O topsvcs Topology Services daemon stopped 28854E81 0112155910 I O grpsvcs Group Services daemon stopped 使用errpt -aj 查看错误详细信息; # errpt -aj BFE4C025 主要看一下 Description 查看一下描述,了解是哪出了问题 例如: Description: Power/Cooling subsystem Unrecovered Error, bypassed with loss of redundancy. Refer to the system service

小型机系统维护方案

系统维护方案 1.1. 数据库维护 数据库系统维护服务由五部分构成 监控服务 数据备份 安全管理 性能调整 故障排除 1.1.1. 24小时监测服务 可进行紧急情况监测的服务包括: 1、网络连接监控 2、数据库应用是否正常运行 3、数据完整性 1.1. 2. 数据库备份和恢复 1、系统备份 2、数据库的备份 3、数据库的恢复 1.1.3. 安全管理 1、数据库系统漏洞的修补 2、服务漏洞的修补 3、系统访问管理 4、服务访问管理 1.1.4. 性能调整 1.针对数据库系统:主要包括CPU/内存使用状况、优化数据库设计、优化数据库管理、以及进程/线程状态、、硬盘剩余空间、日志文件大小等 2.针对应用系统:主要包括应用系统的可用性、响应时间、并发用户数,以及特定应用的系统资源占用等 1.1.5. 故障排除 对数据库发生的故障(如数据库不能正常运行,备份与恢复不能进行,数据文件一致性破坏等)在第一时间进行排除并提交故障报告。 1.2. 应用系统维护 1.2.1. 例行检查服务 例行检查时间间隔: 本公司负责对应用系统进行例行检查,从系统验收完毕起每月检查一次。 1.2.2. 检查内容 检查数据库服务器:检查数据库的运行状况; 核实原系统配置:核实系统软件配置及版本;

检查各监控终端软件:检查各计算机监控系统用户端软件使用情况; 检查软件系统运行环境:检查网络操作系统软件、操作系统软件稳定性等; 1.2.3. 检查方式 制定例行检查计划:根据软件系统的检查时间,本公司制定相应的检查计划,其中包括每 次例行检查时间、例行检查小组成员、例行检查内容; 核实例行检查方案:例行检查前,由客户提前三天通知本公司具体检查时间. 对于客户每次的服务请求,维护小组设有专人负责实施、跟踪、并以客户监控系统最后确认为准。 1.2.4. 检查结果处理 例检记录:每次检查完成后,均作标准的检查报告。包括检查发现的问题、系统现状评价、改进建议; 对于例检发现的问题,若属于负责维护的软件系统,均作及时的解决。 对于每次维护,都作规范的维护记录。包括故障原因、实施工程师、解决办法、实施过程、维护结果。服务记录应于每次服务完成后均将作为系统资料保存。 1.2.5. 系统运行维护服务 当应用系统出现软件改进、模块更换、故障确认、系统错误等问题时,本公司在24小时内将派工程师前往现场响应。 1.3. 系统软件和其它软件系统维护 正版系统软件的技术支持和维护工作主要由软件提供商的维护服务商来提供,在此基础上金旅雅途将提供一下服务: 1.3.1. 例行检查服务 例行检查时间间隔: 本公司负责对应用系统进行例行检查,从系统验收完毕起每月至少检查一次,安装相关的最新系统补丁和升级文件,并对有关问题进行处理。 1.3. 2. 系统运行维护服务 当系统软件出现系统错误等问题时,本公司在24小时内将派工程师前往现场响应。 1.3.3. 维护范围 ? 包括各服务器使用的操作系统:Windows 2000 Advance Server ,Windows 2000 Server ? 台式机操作系统:Windows XP,Windows 2000 Professor ? 邮件系统 ? 其它有关服务器上的系统。 1.4. 服务系统维护 服务系统维护内容包括: ◆系统运作检测 ◆以保证系统无病毒污染的病毒检查服务 ◆优化服务器与客户机的设置 ◆系统管理文件的打印与归档 ◆服务器的硬件配置及软件的更换服务 ◆工作站的硬件配置及软件的更换服务

软件运行的基础-HP和IBM小型机选型比较(精)

HP和IBM的机型比较 希望大家通过我的介绍对HP和IBM的系统有个初步的认识。尽可能采用在公开站点上能查找到的资料。 先介绍tpc组织和tpc值: 1、https://www.360docs.net/doc/cc6727525.html, 这是一个由IBM、HP、Dell等联合组成的一个第三方评测组织,TPC是Transaction Processing Performance Council的所写,由字面可以知道这是一个“事务处理性能理事会”。简而言之就是一个评测各家机器性能的一个组织。而TPC值一般都是各个系统在满配情况下的最优化后的得分。 2、TPC的几个指标(只介绍含义,具体请到tpc的网站上看——其实是俺e文不好又懒惰 2.1、TPC-C:OLTP(联机事务处理——工厂的MIS系统比较注重这个指标,我们单位本次选型就基本基于这个指标 2.2、TPC-H:Decision Support for Ad Hoc Queries(基于特定查询的决策支持 2.3、TPC-W:Web e-Commerce(互联网及电子商务 2.4、TPC-R:Decision Support for Business Reporting(基于商业报告的决策支持 3、TPC-C概述 内容基于技术交流的讲座或tpc站点资料。 TPC-C指标(benchmark,是基于一个交易模型而进行的基准测试的得分。这个交易模型是由9张表组成的一个最简单的交易系统,它有几个基本功能:输入和交付订单,付款记录,查询订单状态,库存情况监控(These transactions include entering and

delivering orders, recording payments, checking the status of orders, and monitoring the level of stock at the warehouses. 由于一般企业的MIS系统大多数都要进行以上几个操作,所以这个指标对MIS 或ERP 系统的选型有比较重要的参考作用。 4、TPC值的估算方法: 说了那么多,那么TPC值究竟该如何估算呢?根据技术交流会上得到的信 息,TPC值 的估算方法大致如下(举例说明: 以一个银行为例,根据历史交易记录分析得知,该银行每天有100万笔交易,其中上午下午各两个小时是高峰期,占到真个交易的75%,那么我们可以得到每分钟的交易为3125笔,再根据一个1:10~20经验比例公式来推测实际在计算机系统中要完成这些交易所要开销的事务数,如果我们选择15这个比例系数那么,这个银行系统的TPC-C值大致可以确定为46875,再四舍五入取5万。这样这个银行系统的TPC需求就确定下来了。这次我们系统的TPC值估算下来是不小于12万可扩展到24万。 本文主要讲述的是基于Unix的系统,只涉及部门级服务器和小型机两个系列。 第一部分:IBM系列 原来想先写HP的,可惜HP的产品系列太繁琐,还是先写IBM的吧 IBM号称在中国的Unix服务器市场占有率超过47%,下半年争取超过50%,没有考证过,不过IBM进入中国市场有很长历史了,有这样的占有率也不是不可能的,相信IBM 不会乱说的。 1、IBM服务器概述

IBM小型机维护手册资料

精品文档 IBM小型机维护手册 网友:xcw0605 发布于:2008.07.15 16:09(共有条评论) 查看评论| 我要评论 IBM小型机维护手册 一、AIX操作系统简介 AIX操作系统是有IBM公司研发的Unix操作系统,在技术、功能上又有许多增强:模块化的内核; 动态调整内核; 多线索内核; 高效率的输入/输出; 实时处理; 安全性能; 日志文件系统; 存储管理(包括镜像技术和条块化技术); 系统管理; 在线帮助查询。 二、设备管理 2.1块设备(Block Device): 采用结构化的随机访问方式的具有缓冲的设备。块设备通常为磁盘文件系统(Disk File System)。 2.2字符设备(Character Device): 裸设备(Raw Device),是无缓冲的连续、定向流设备。字符设备通常为系统周边设备,如终端、打印机等。 2.3主设备号(Major Number): 标识系统内核中的设备驱动号。 2.4次设备号(Minor Number): 精品文档. 精品文档 标识特殊的设备类型。 ODM数据库由预定义数据库(Predefined Database)和定制数据库(Customized Database)组成。用于存储系统中所有逻辑设备的信息及其属性。其中: 预定义数据库:包含所有基于系统配置的系统可支持的设备(Supported Devices)的配置数据。 定制数据库: 包含当前系统中所有定义的(Defined Devices)和可用的(Available Devices)设备配置数据。 设备的类(Class):标识设备

设备的子类(Subclass):标识设备如何连接至系统 设备的类型(Type):标识设备的类型 设备的名字(Name):标识逻辑设备名 # lsdev 设备列表 # lsattr 设备属性列表 # chdev 更改设备属性 # lscfg 显示当前系统中设备的配置信息 2.5设备的配置: # mkdev –c Class –s Subclass –t Type –p Parent_Adapter –w Connection_Location –a Attribute=value -c Class:指定设备所属的类(如:tape) -s Subclass:指定设备所属的子类(如:scsi) -t Type:指定设备所属的类型(如:150mb) -p Parent_Adapter:指定设备的父卡号(如:scsi0) -w Connection_Location:指定设备连接在父卡上的位置或地址(如:5,0) -a Attribute=value:指定设备的属性(如:ret=no) 2.6设备的状态: 精品文档. 精品文档 Undefined:系统中没有此设备的存在记录(设备信息存储于预定义数据库中)(Supported)Defined:系统已为此设备分配了逻辑设备名和端口,但系统当前不能访问此设备(设备信息存储于定制数据库中)(Defined) Available:设备在系统中已经定义了并且可以使用(设备信息存储于定制数据库中)(Available)# cfgmgr自动配置系统中的自适应设备(Self-Configuring Devices) 三、存储管理 3.1AIX中逻辑存储的限制 卷组(VG)255个/每个系统 物理卷(PV)32个/每个卷组 物理分区(PP)1016个/每个物理卷 逻辑卷(LV)256个/每个卷组 逻辑分区(LP)32512个/每个逻辑卷 AIX系统逻辑卷: Paging Space:/dev/hd6,用于存储虚拟内存中信息的固定的磁盘空间 Journal Log:/dev/hd8,用于记录系统中文件系统结构的改变 Boot LV:/dev/hd5,用于系统启动映象的物理上连续的磁盘空间 AIX系统文件系统: /(root):系统启动进程所需的重要的系统设备信息及应用程序的存储空间 /usr:/dev/hd2,系统命令、信息库以及应用程序的存储空间 /var:/dev/hd9var,系统的日志文件和打印数据文件的存储空间 /home:/dev/hd1,系统中用户数据的存储空间 /tmp:/dev/hd3,系统临时文件和用户工作的存储空间 3.2LVM操作命令:

主机及存储设备性能监控方案

主机及存储设备性能监控方案 一背景和目标 目前,为各省配备的小型机和存储设备都已进入稳定运行阶段,总局信息中心决定在各省开展小型机和存储设备的性能监控工作,对小型机和存储设备的主要性能数据进行定期采集,了解和掌握当前设备的性能和压力状况,为基础设施的运行维护、资源优化和建设规划工作积累经验和提供依据。 二监控范围 主机及存储设备性能监控的范围主要包括总局统一为各省配备的HP小型机(superdome)、IBM小型机(P595,P570)和EMC磁盘阵列设备。 三监控时间 主机及存储设备性能监控工作将对连续3个月内的关键时间点对HP 小型机、IBM小型机和EMC磁盘阵列设备的关键性能指标进行数据采集,建议在系统忙时和闲时分别进行检测。一般建议每月至少监控4天,其中征期至少两天,非征期至少两天;每天监控至少4次,其中忙时至少两次,闲时至少两次。具体监控时间和详细的监控次数,各省可根据本省的业务特点进行确定和调整。

四监控方式 主机及存储设备性能监控通过运行小型机及存储设备自带的命令对关键性能指标进行查看,并进行数据采集。技术方案第五部分详细介绍了HP小型机、IBM小型机和EMC磁盘阵列性能监控命令的操作指南。数据采集工作可直接按照操作指南运行命令进行,也可以通过运行命令脚本(详见附件三)进行。 五操作指南 5.1 IBM小型机性能监控方案 5.1.1系统性能检查方式及说明: (一)IBM小型机性能监控均通过IBM AIX系统自带命令,非第三方软件。IBM AIX系统安装后,无需额外安装任何软件包即可使用。(二)IBM小型机性能监控的命令,均不额外增加系统负荷。即是说当系统繁忙度较高时,仍可执行下列命令,且不对系统造成影响。(三)采样数据的保存。通过执行IBM小型机性能监控命令,输出结果的保存办法,一般常用以下几种: 1、使用专业的telnet工具登录到主机上。专业telnet工具均会含有“捕获输出文字”的功能,只要打开捕获输出文字功能,所有的输出均会记录到文件中。(推荐,不影响系统) 2、使用AIX系统的输出重定向功能。 命令格式:# 命令> 文件名

小机常用维护命令

小机常用维护命令 tail -f hacmp.out (查看双机启动期间的日志信息) rm (删除目录) rmfs(删除全部) vi /var/hacmp/log/hacmp.out(打开hacmp.out文件,查看信息) diag---选第三项----...(去掉硬件设备的!报警信息) fuser /app (显示当前用户) fuser -uckx /app (停掉所有用户) varyonvg appvg (手动启动卷组,相当于启动ha的命令:smitty clstart) varyoffvg appvg (手动停止卷组,相当于启动ha的命令:smitty clstop) ls -l /dev/appvg (查看appvg卷组的详细信息,硬盘号,序号) exportvg appvg (在一台小机上设置appvg卷组后,在另一台上要做一次同步,同步的方法是:用此命令导出,再用importvg appvg 命令导出) smitty vg (可用此命令分别选择export 、import来导出、导入卷组) cat /etc/hosts (查看小机配置信息) fget_config -Av 该命令执行后产生如下代码: # fget_config -Av df -g 显示硬盘空间使用信息。 机房断电前,机柜内设备关停、开启顺序: 1、停止应用服务器; 2、停止oracle数据库; 3、停止双机(smitty clstop); 4、关闭小机(shutdown -F)

5、关闭另一台小机(shutdown -F) 6、关闭盘柜(后面2个电源按钮,分别关闭) 7、关闭windows服务器 8、关闭磁带机。 供电设备开启顺序: 1、打开盘柜; 2、打开磁带机 3、打开60小机 4、打开70小机 5、打开windows服务器 6、启动双机服务、数据库服务、应用服务。 启停双机:smitty clstart smitty clstop 关闭小机:shutdown -F 重启小机:shutdown -Fr 查看活动卷组和硬盘:lspv 查看机器上的硬盘:lsdev -Ccdisk 查看卷组中的文件系统和逻辑卷LV: lsvg -l oravg 查看文件系统的占用情况: df -m 查看小型机是否有错误: errpt |more 查看小型机错误的详细信息: errpt -a 查看Oracle日志: more /ora/app/admin/orcl/bdump/alert_orcl.log 小机去除黄灯报警方法: (一) # diag

相关文档
最新文档