数据中心应急预案

数据中心应急预案
数据中心应急预案

数据中心应急预案

V1.0

2017年11月

修改记录:

目录

一、总则 (5)

二、术语 (5)

三、适用范围 (5)

四、应急通讯录 (5)

五、现场应急指挥领导小组 (6)

六、应急事件汇报流程 (7)

七、操作安全注意事项 (9)

八、应急处理预案流程 (9)

(一)市电双路供电中断 (9)

(二)UPS故障处理 (11)

(三)机柜空开掉电 (12)

(四)风冷精密空调故障高温处理 (13)

(五)水冷空调高温报警处理 (14)

(六)局部高温处理 (15)

(七)空调供电中断多台 .................................................................................. 错误!未定义书签。

(八)空调高压报警 .......................................................................................... 错误!未定义书签。

(九)空调低压报警及制冷剂泄漏处理 .......................................................... 错误!未定义书签。

(十)机房低温报警处理 (15)

(十一)机房湿度过低的处理 (16)

(十二)机房湿度过高的处理 (16)

(十三)气流故障处理 ...................................................................................... 错误!未定义书签。

(十四)漏水应急处理 (17)

(十五)环境监控故障处理 (18)

(十六)消防系统应急处理 (18)

(十七)公共卫生事件处理............................................................................... 错误!未定义书签。

(十八)防汛应急处理 (21)

(十九)治安应急处理 (26)

(二十)地震应急处理 (28)

九、应急操作指引维护 (29)

一、总则

为提高运维人员对各种险情及紧急情况的应对能力,以防突发性事件对公司和客户造成重大损失,结合运维实际,制定各种应急事件处理预案。应急预案遵循以防为主、防救结合的方针,坚持以人为本、避免伤亡原则,做到责任明确、程序简洁、分工合理、反应灵敏,以应对可能出现的各类险情及紧急情况。

为加强对突发性事件(事故)应急反应的组织领导工作,在数据中心成立现场应急指挥领导小组,组织指挥重特大突发性事件(事故)的救援、抢险工作,确保救援、抢险工作反应迅速、组织有序、效果突出。

二、术语

防护用品:劳动者在生产过程中为免遭或减轻事故发生和职业病危害的个人随身穿(佩)戴的用品。

防护设施:在生产过程中为免遭或减轻事故发生和职业病危害的公共防护设备。

操作资格:特种作业人员必须经专门的安全技术培训并考核合格,取得《中华人民共和国特种作业操作证》(以下简称操作资格证)后,方可上岗作业。

三、适用范围

数据中心。

四、应急通讯录

应急通讯录应定时更新,对供应商值班电话应按月度抽查有效性。各职位A/B角互换,当第一负责人A角联络不上时,B角人员担当行使第一负责人职权。应急通讯录应打印成册放置在数据中心值班电话旁的明显位置。

五、现场应急指挥小组

数据中心成立现场应急指挥小组,小组成员履行规定的应急职责。现场应急指挥小组架构图中应有明确的小组人员姓名和联系方式,并打印张贴在数据中心明显位置。

六、应急事件汇报流程

(一)在应急事件中的汇报遵守如下流程:

?突发事件发现人报告给数据中心值班人员

?数据中心值班人员报告到数据中心应急总指挥;

?应急总指挥根据反馈信息,对整体的事件初步情况报告做出判断,组织人员初步评估事件严重程度和事件等级,决策启动相应应急程序。

?各相应应急组组长接受到通报后,根据应急流程实施应急指挥。

(二)事件通报机制:

七、操作安全注意事项

以下的内容列出了基本的安全注意事项,但它不能包含所有的情况,应时刻警惕!

1.没有数据中心经理许可,严禁任何人员触及各供电设施开关。

2.油罐区、柴油发电机组及配电间和UPS 间应急电源系统设备所在区域,此区域严

禁明火和电焊操作,非工作人员或未经上级部门许可人员,严禁入内。

3.所有操作运行人员必须有操作职格证及公司内部安全培训,否则不能执行操作,安

全培训包含在应急电源系统的培训内。

4.操作运行人员必须完全熟悉相关设备的安全信息,并且知道操作步骤。

5.在机组周围要时刻注意机组的状态,安全隐患包括机械运动、电气伤害、高电压、

烫伤等。

6.注意警告标牌并且在操作之前要确认无人在机器周围工作。

八、应急处理预案

(一)市电双路供电中断

?值班工程师

1.值班人员接到故障报警的信息后,查看监控报警平台影响范围,包含UPS后备时

间,空调运行状况,向设施工程师及数据中心经理汇报。

2.短信平台发出告警短信通知基础设施工程师及数据中心主管现场处理。

3.巡检人员查找断电原因,查看发电机是否自动或人员手动投入(发电机投入时间应

在10分钟内投入)。

4.值班人员在电脑上查看UPS的输出电压和备份时间,上报设施工程师及DC经理,

同时观察机房环境温升情况。

5.发电机供给正常后,检查冷机及配电、UPS运行状况,根据温升情况,开启机房备

用空调,并全面巡检空调及日常设施(CCTV、门禁等)。

6.根据设施工程师安排进行应急处置。

7.待处理结束将处理过程、处理结果录入Remedy。

?基础设施工程师

1.根据故障信息,现场进行处理。

2.向DC主管进行汇报事件处理进程及影响评估。

3.根据机房温升判断,不可控情况下,在室外气温25度以下,开启消防排烟进行降

温。

4.根据电路供给情况,对空调配电进行手动切换。

5.指挥关闭一些不必要设备,节约电力资源。

?数据中心主管

1.第一时间向ADM及客户当值人员汇报当前故障信息及后续发展评估,建议客户评

估并关闭非关键IT设备。

2.协助现场处理及资源协调(干冰采购等)。

3.关注发电机油料储备情况,向数据中心经理及ADM及时汇报事件处理进展。

?注:

?一路供电中断

1.一路市电供给故障后,低压配电系统母联自动投入运行,接替失压段的负荷。

?当现场自动启动无效时, ,需要手动分别启动失压段的所有低压母联开关

?ATS转换失败

1.因市电供给故障,柴油机组启动正常,但ATS故障不能完成切换,需要及时通知上级主

管。

2.需要手动投入备路开关。

(二)UPS故障处理

?值班工程师

1.向基础设施工程师汇报故障信息及影响范围。

2.通知巡检人员现场查看有异常有烟雾时及时通知中控室。

3.通知厂商驻厂工程师到现场维维修。

4.全面巡检机房客户设备有无报警。

5.办理厂商人员进出手续,录入Remedy事件单。

?基础设施工程师

1.信息判断:查看UPS故障信息,一台还是多台故障,一台故障是否影响到整体运

行(正常:并机UPS一台故障会退出运行,负载转移至其它UPS。异常:UPS整体退出,全部负荷自动向另一路进行切换。

2.根据故障情况评估事件发展,向领导汇报。

3.协助厂商进行维修,了解操作步骤是否对数据中心产生风险。

?数据中心主管

1.向ADM及数据中心经理汇报,故障情况,严重程度。

2.向客户建议2N供电系统单电源设备业务进行评估。

3.跟进后续故障原因及解决方案。

(三)机柜空开掉电

?值班工程师

1.现场查看空开对应设备信息向基础设施工程师汇报。

2.向电气工程师、数据中心经理及ADM汇报。

3.办理厂商人员进出手续,录入Remedy事件单。

?基础设施工程师

1.查找故障点分析掉电原因。

查看机柜内PDU保护开关是否动作。有动作拔开此设备电源线进行万用表进行检查是否短路。没有保护开关拔开所有电源线,逐台设备电源进行检测。

拔开工业联接器进行检查PDU是否短路接地。检查插座是否短路接地。

2.因某台设备故障引发掉电,向客户汇报故障点基本判定是否可以对此机柜其它正常

设备进行送电。等待厂商进行现场维修。

3.PDU故障,使用数据中心备用PDU给客户及时更换。

4.总结分析故障原因,出具故障报告。

(四)风冷精密空调故障高温处理

?值班工程师

1.接到故障报警的信息后,第一时间到达现场,开启备用空调。

2.电话通知基础设施工程师现场处理、数据中心主管。

3.一台空调故障,备机开启后,温度恢复正常。

4.二台空调出现时故障,联系紧急运送干冰至数据中心并加开应急排风机。

5.对机房高热区域设备打开机柜前后门及通风地板,利于设备散热。

6.关闭机房工作中不必要负荷,工作中的加湿设备,机房部分照明。

7.根据设施工程师安排进行其它故障处理操作。

8.待处理结束将处理过程、处理结果录入Remedy。

(五)水冷空调高温报警处理

?值班工程师

1.现场查看供水温度(高于16度以上为异常)。

2.开启备用空调。

3.通知值班室了解情况及是否启用其它冷机。如无备用冷机,紧急联系将干冰运送至

数据中心加开应急排风机。

4.向数据中心设施工程师汇报。

?基础设施工程师

1.安排指导资深操作员,进行相关操作。

2.根据故障信息,现场进行处理。

3.向DC主管进行汇报处理情况,机房温度变化。

4.根据机房温升判断,在室外气温25度以下。加开应急排风机。

5.协助厂商进行故障处理。

?数据中心主管

1.第一时间向项目经理(客服)及客户当值人员汇报当前故障信息及后续发展评估,

建议客户评估并关闭非关键IT设备。

2.协助现场处理及资源协调(干冰采购等)。

3.向数据中心总经理及项目经理(客服)及时汇报事件处理进展。

(六)局部高温处理

?值班工程师

1.查看报警平台,高温报警范围。向基础设施工程师汇报。

2.观察高温处温升变化,增大此区域地板通风量。

?基础设施工程师

1.调整大通风地板无效情况下,下调空调温度设定并加开导流风机。

2.评估气流组织及设备负载,建议客户进行负载调整及气流组织优化。

(七)机房低温报警处理

?值班工程师

1.查看报警平台,低温报警范围。向基础设施工程师汇报。

2.整体温度偏低,两台以上精密空调关机一台。

3.实时观察机房温度变化,温温达到报警值,开启一台空调。

4.并适当(0.5-1度)提高其中一台空调温度设定值,并实时观察温度变化在正常范

围内。

?基础设施工程师

查看引发故障原因:设备负载过低适时调整空调参数,空调自身原因引发联系厂商进行维护。

(八)机房湿度过低的处理

?值班工程师

1.现场检查空调加湿器是否有投入。

2.室外湿度大于室内,开启新风机。

3.室外湿度小于室内,关闭新风机。

?基础设施工程师

查看各空调加湿是否正常投入工作,调整加湿量。

(九)机房湿度过高的处理

?值班工程师

1.现场查看机房环境,查看精密空调是否除湿运行。

2.向基础设施工程师汇报。

?基础设施工程师

1.室外湿度过高,关闭新风机。

2.查看机房环境温度是否过低,进行调整。

?基础设施工程师

1.现场查看风机空开是否断开。

2.检查回风过滤网是否过脏。

3.以上两项处理不可恢复时,联系厂商现场维修。

(十)漏水应急处理

?值班工程师

1.查看漏水报警平台,查找漏水报警点位置,现场确认漏水点。

2.堵住漏水源后应立即用吸水机进行排水。

3.加湿漏水:关闭加湿系统或供水管,。

4.单台空调供回管漏水:关闭此空调进回水阀门,开启备机。

5.录入事件单。

?基础设施工程师

1.现场进行形势判断,及时上报ADM及数据中心经理。

2.供水主管路发生漏水,及时关闭阀门隔离漏水点,修复漏水点。

3.水管修复后,以正常供水压力试压,检查无漏水,确认一切正常后,恢复现场设备、

管线运行;

4.情况形势做好漏水周围防护,防止漏水进行机房、设备、及配电室。

5.如已造成水浸,应视水浸情况关闭机房内运行的设备设施并切断电源。

6.做好机房高温处理准备,评估影响及恢复时间。

7.排干水后,应立即对湿水设备设施进行除湿处理,如用洁净干抹布擦拭、热风吹干、

自然通风等。

?数据中心主管

1.根据影响范围向ADM、数据中心经理、客户接口人,汇报事件情况,告知客户停

机处理。

2.组织人员现场对客户设备进行防护。

(十一)环境监控故障处理

?值班工程师

1.通知弱电工程师现场处理,。

2.监控故障期间,重要区域监控无法监控增加巡检频率或指派人员现场值班。

?基础设施工程师

1.指引值班工程师事件处理

2.简单故障排查:

电源节点排查:模块箱电源检查,模块、网络节点指示灯正常。

PC故障时,厂商不能及时到场,可使用备用机或硬件更换(备机包含最新的软件备份)。

3.协助厂商故障处理

(十二)消防系统应急处理

?接到消防主机火灾报警,确认火灾报警地点,通知巡视人员携带消防应急包或灭火器迅速到现场查看确认现场情况。

?确认火情后回复中控并进行现场灭火。

?立即向应急领导小组汇报。

?开启消防广播,通知所有人员立即疏散至安全地带。

?关闭机房防火门,逃离至大楼外安全地带,清点我司及客户人员。

?应急领导小组根据火情及时向上级领导汇报着火情况。

?当火情影响到中心供配电系统,应通知客户实施远程停机。

?各小组携带对讲机随时保持联系,掌握火情对我机房和人员的危及程度。将现场火灾进展情况实时汇报给数据中心负责人,并提出应急处理的意见和建议,请领导做

下一步的决定。

?数据中心总经理确定是否启动EMC,召开应急管理委员会(以下简称EMC)会议,对事态的进一步发展进行关注及对预案外的突发状况制定相应的应对决策。

注:着火区域判定为动力机房,影响到至机房供电、空调、网络安全,应立即通知应急管理委员会。

1.主机房火警应急响应及处理

(1)巡检员发现火警:用对讲机向监控室值班人员通报,必要时应立即打破手动报警按

钮。

(2)值班人员第一时间通知中控室启动消防预案,上报应急指挥中心。

(3)灭火组人员并就近使用灭火器材,进行处置。

(4)疏散组疏散机房所有人员至大楼外安全地带,应急领导小组通知客户通报火情,让

客户做好停机准备。

(5)当火情不可控制时,应急领导小组应决定是否启动气体灭火系统,并通报客户进行

停机。

(6)着火区域机房所有设备整体下电。

(7)灭火组做好启动气体灭火系统的准备。

(8)灭火组接应急领导小组命令后,启动着火区域气体灭火系统。

(9)应急领导小组组长向数据中心总经理及物业部领导汇报火情及灭火情况。

(10)灭火组长迅速判定火警级别,并上报应急领导小组组长。

(11)应急领导小组长根据情况,决定是否电话报告119火警。

(12)应急领导小组组长将现场火灾情况报告给数据中心总经理,并提出应急处理的意见

和建议,请领导做下一步的决定。

注:

1、一级火警的应急处理

(1)灭火组利用主机房内(或调用动力机房)的手提二氧化碳灭火器对火灾进行控制

和扑救;

(2)主机房值班员密切监视设备运行情况。

(3)疏散、救护组随时准备人员救护和重要物品(指重要的数据、文档及电脑等)的

转移工作。

2、二级、三级火警的应急处理

(1)火灾达到二级,应急领导小组组长命令警戒组长立即拨打“119”。

(2)警戒组长立即与当地消防中队联系,协调物业部门并做好接应的准备工作。

(3)应急领导小组组长命令所有人员撤离主机房,灭火组长指派物业工程部门切断火

灾区域电源。并安排物业中控专业人员进入气体消防间。

(4)气体消防间,消防系统手动/自动转换锁钥匙设置为自动状态,并关闭所有通向火

灾区域的大门。

(5)疏散、救护组根据来访登记表和外出登记表统计、核对人数并报告消防现场总指挥。

(6)人员完全撤离后,应急领导小组组长命令物业中控人员对火灾区域进行气体灭火,

中控人员复诵命令并得到确认后进行气体灭火。

(7)火灾上升到三级,警戒组引导消防部门的人员、设施进入现场灭火。

(8)应急领导小组组长组织人员配合消防部门进行火灾扑救工作。

相关主题
相关文档
最新文档