服务器故障处理记录单(空)

服务器故障处理记录单(空)

服务器故障处理记录单

十大X86服务器常见故障——硬件篇

十大X86服务器常见故障——硬件篇 ?摘要:由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过…… ?标签:X86服务器常见故障 说起X86平台的CPU,我们可能会如数家珍的报出N多种,Inter的至强5600、至强7500,AMD强劲的12核心x86处理器--“Magny-Cours”(马尼库尔)等等。在它的基础上,辅以带ECC、ChipKill、热插拔技术的内存;防止数据异常丢失的RAID硬盘;提供不中断电力供应的冗余电源等等共同构建出一个完整的X86服务器。 由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。因此,X86应该算是我们广为熟知的架构了。用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过…… 硬件故障篇 Top10 网卡 服务器网卡 故障回放:近几日,内网用户通过代理服务器进行连接时不太稳定,ping的速度有时低于1ms,有时高达500多ms,数值相差之大也说明了网络时好时坏。起先判断是蠕虫病毒作祟,但经过详细筛查,确定非病毒引发的故障;再对网线进行测试,衰减、串扰、回波损耗等各项技术指标都在正常指标之内,最后更换网卡故障才得以解决。 解决方案:我们知道一款优秀的网卡除了拥有高速率外,还需要关注2个技术指标,TOE(TCPOffloadEngine,TCP减负引擎)技术和RSS(Receive-sideScaling接收端调节)技术,它们能大幅减轻CPU的资源,解决了输入/输出流(I/O)的瓶颈,使网络吞吐大幅提升,这两项技术可以使系统的响应指标的TPS值能提升2.1到2.5倍,所以一块好的网卡是保证服务器快速、稳定连接的保障。 一般来说,网卡出现故障的状况较低,即便是损坏也可以使用独立网卡代替,它的危害程度也不是很高。 危害程度:★★ 控制难度:★

故障管理故障处理流程规定

故障管理和故障处理流程规定 (暂行稿) 工程运维中心 二〇〇八年八月 目录 第一章目的 (3)

第二章工程运维中心在95013业务维护管理中的职责 (3) 第三章 95013业务故障分类 (3) 第四章故障处理的原则: (4) 第五章故障处理时限要求。 (4) 第六章故障管理和故障报告制度 (4) 第七章故障通报制度 (5) 第八章故障处理及报告流程图 (5) 第九章工程运维中心内部处理流程 (6) 第十章外部支持流程(研发、建设和其他厂家) (6) 第十一章工程运维中心各部门及公司相关部门的责任 (7) 第十二章故障的跟踪管理 (7) 附件一:95013业务重大/严重故障分析报告 (9) 第一章目的 工程运维中心承担95013业务网络和平台日常维护工作,为规范故障管理和故障处理的工作流程,使网络和平台故障能够得到正确及时地处理,保证 95013业务安全稳定的运行,特制定本规定。 第二章工程运维中心在95013业务维护管理中的职责

a)工程运维中心网管中心值班工程师和各分公司运维人员承担95013业务的日常运行监控和维护工作。 b)工程运维中心运维组负责95013平台的故障处理;各地分公司运维人员负责现场支持,并负责协调当地运营商的运维支持。 c)建立故障通报制度,如发生重大故障,应按照故障等级和故障上报流程逐级向上汇报。 d)定期召开网络质量分析会,遇有重大故障,应及时召开故障分析会。 负责全公司运维人员的技术业务培训,提高运维人员的技术维护水平和工作能力。 第三章 95013业务故障分类 95013业务系统和网络故障分为重大故障、严重故障和一般故障。 1.重大故障:全部业务中断 2.严重故障包括: 一种以上业务全部中断≥60分钟 一省以上业务全部中断≥60分钟 用户注册、业务受理全部中断≥4个小时 3.一般故障:除重大故障、严重故障以外的其它故障。 第四章故障处理的原则: 先抢通,后修复;先核心,后边缘;先本端,后对端;先网内,后网外,分故障等级进行处理。 第五章故障处理时限要求。 1. 重大故障,故障处理时限≤2小时。

建筑消防设施故障处理记录

建筑消防设施故障处理 记录 文件编码(GHTU-UITID-GGBKT-POIU-WUUI-8968)

建筑消防设施故障处理记录 单位名称: 记录时间:年月日——年月日 建筑自动消防设施维护管理制度 一、建筑自动消防设施的管理应当明确主管部门和相关人员的责任,建立完善的管理制度; 二、消防设施应具有系统竣工图、设备技术资料、使用说明书、调试开通报告、竣工报告、竣工验收情况表等有关资料,建立技术档案; 三、消防控制室应建立系统的使用操作规程,明确值班人员职责,并做好系统的运行记录,发现故障及时报告主管领导和有关部门进行维修保养,确保系统的完好有效; 四、应做好建筑消防设施的检查维护保养记录; 五、建筑消防设施投入使用后即应保证其处于连续正常运行或准工作状态,不得擅自断电停运或长期带故障工作; 六、应建立建筑消防设施故障报告和故障消除的管理制度。发生故障,应当及时组织修复,并采取有效措施确保安全; 七、建筑消防设施检查分为巡查、月度检查、年度检测三种方式; 八、建筑消防设施巡查可由归口管理消防设施的部门实施,也可以按照工作、生产、经营的实际情况,将巡查的职责落实到相关工作岗位,并应明确各类建筑消防设施巡查部位和内容,填写《建筑消防设施巡查记录》;依照有关规定每日进行防火巡查的单位和设有电子巡更系统的单位,应将建筑消防设施巡查部位纳入其中,其它单位建筑消防设施巡查应当每周至少一次;建筑消防设施电源开关、管道阀门,均应指示正常运行位置,并标识开、关的状态;对需要保持常开或常闭状态的阀门,应当采取铅封、标识等限位措施; 九、建筑消防设施的月度检查应当每月至少一次,并填写《建筑消防设施月度检查记录》。单位不具备检查的专业技术人员和检测仪器设备的,可以委托具备消防检测中介服务资格的单位依照有关技术标准进行检查;

服务器故障排除方法

服务器故障排除方法 本文主要是针对一些服务器出现的简单的故障进行排查处理,主要分三部分,第一部分讲的是服务器故障排除的基本原则性问题,第二部分讲述了一些服务器硬件故障排除的实例,第三部分讲述了一些服务器软件故障排除的实例 第一部分服务器故障排除的基本原则性问题 一、服务器开机无显示应怎么办 1.检查供电环境,零-火;零-地电压? 2.检查电源指示灯,如果亮,正常吗? 3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗? 4.是否更换过显示器,更换另一台显示器。 5.去掉增加内存。 6.去掉增加的CPU 7.去掉增加的第三方I/O卡 8.检查内存和CPU 插的是否牢靠 9.Clear CMOS 10.更换主要备件,如系统板,内存和CPU 二、服务器故障排错的基本原则是什么 1.尽量恢复系统缺省配置

a:硬件配置:去除第三方厂商备件和非标配备件; b:资源配置:清除CMOS,恢复资源初始配置; c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序; d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗? 2.从基本到复杂 a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。 b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。 c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。 3.交换对比 a:在最大可能相同的条件下,交换操作简单效果明显的部件; b: 交换NOS载体,既交换软件环境; c:交换硬件,既交换硬件环境; d:交换整机,既交换整体环境; 三、服务器故障排除需要收集哪些信息? 服务器信息: 1.机器型号 2.机器序列号(S/N: 如:NC00075534)

服务器维修故障诊断思路大全

前言: 相对PC机而言服务器出故障的机率是小多了,但是它的故障给企业也带来了一些影响。作为服务器工程师除要有服务器基础知识以外,还需要具备服务器故障的诊断思路,这样才能最快速的解决问题也可以减少故障停机时间。 本文并不是针对某个厂家服务器故障完全手册,而是根据个人经验总结出来的一些经验思路还有一些总结案例。按照下面思路和方法基本上能够解决目前服务器更换式维修的大多数问题。而且里面的一些操作风险性也不是很大,因为服务器本身就是坏的,最坏的情况下就是它一点都不能工作了呗,(主要确认是否有数据,数据无价啊)而且现在很多厂商都有自己的客服电话关于产品问题打个电话也很方便,所以安心做啦 当然如果服务器在保修期内就打电话让售后工程师上门服务,毕竟顾客就是上帝嘛,但是如果上帝比较着急使用,一般小故障自己解决一下就好了,因为一般报修最快都是第二天(大客户如银行等除外,一般当天还得是晚上才能停机解决) 目录: 一、服务器常见故障分类 二、服务器常见故障现象及其对应排错方法 三、服务器排错基本原则 四、服务器故障需要收集哪些信息 五、服务器硬件故障排错实例 六、服务器软件故障排错实例 七、服务器常见内存故障现象 一、服务器常见故障类型分类: A. 开机无显示 B. 加电BIOS自检阶段故障 C. 系统和软件安装阶段故障和现象 D. 操作系统启动失败 E. 系统运行阶段故障 二、服务器常见故障现象及其对应的排除方法

A.服务器开机无显示(加电无显示和不加电无显示) 1. 检查供电环境 2. 检查电源和故障指示灯(故障指示灯状态,目前很多厂商的服务器都有故障指示灯,或故障诊断卡等。) 3. 按下电源开关时,键盘指示灯是否亮、风扇是否全部转动 4. 是否更换过显示器,尝试更换另外一台显示器 5. 插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存尝试 6. 是否添加了CPU,如果有增加CPU尝试去掉 7. 去掉增加的第三方I/O卡包括Raid卡等 8. ClearCMOS (记得使用跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不一致,具体找不到电话联系一下厂商客服) 9. 尝试更换主板、内存等主要部件 10.清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下 B.加电BIOS自检报错 1. 根据BIOS自检报错信息提示 2. 查看是否外插了第三方的卡或者添加部件,如果有还原基本配置重启 3. 做最小化测试 4. 尝试清除CMOS 5. 看能否正常进入BIOS C. 系统安装阶段故障和现象 1.查看服务器支持操作系统的兼容版本(从厂商能查到兼容性列表) 2.系统安装蓝屏(对蓝屏故障代码诊断) 3.安装在分区格式化的时候找不到硬盘 (阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装) 4.大于2T的硬盘式应该如何分区(必须使用阵列卡才能实现或者有外插识别卡) (使用阵列卡配置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可) 5.安装过程是死机 (检查兼容性列表---查看硬盘接口选择是否正确---阵列驱动安装是否正确---尝试最小化配置安装检查是否为内存和CPU等问题) 6.引导光盘安装失败

服务器常见故障及解决办法

服务器常见故障排除 服务器常见故障一、造成服务器无法启动的主要原因: 1)市电或电源线故障(断电或接触不良) 2)电源或电源模组故障 3)内存故障(一般伴有报警声) 4)CPU故障(一般也会有报警声) 5)主板故障 6)其它插卡造成中断冲突 服务器常见故障二、服务器无法启动? 1)检查电源线和各种I/O接线是否连接正常。 2)检查连接电源线后主板是否加电。 3)将服务器设为最小配置(只接单颗cpu,最少的内存,只连接显示器和键盘)直接短接主板开关跳线,看看是否能够启动。 4)检查电源,将所有的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。 5)如果判断电源正常,则需要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板) 服务器常见故障三、系统频繁重启? 造成系统频繁重启的原因: 1)电源故障(替换法判断解决) 2)内存故障(可从BIOS错误报告中查出) 3)网络端口数据流量过大(工作压力过大) 4)软件故障(更新或重装操作系统解决) 服务器常见故障四、服务器死机故障判断处理: 服务器死机故障比较难以判断,一般分为软件和硬件两个方面: 1)软件故障 首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因。 电脑病毒的原因。 系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。 软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决 2)硬件故障 硬件冲突 电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。 硬盘故障(通过扫描硬盘表面来检查是否有坏道) 内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断) 主板故障(使用替换法来判断) CPU故障(使用替换法) 板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理)

服务器常规维修与判断方法

服务器故障排除方法 相比PC而言,服务器出故障的机率是小多了,但是它出故障造成的损失可也大多了。作为服务器维修人员需要了解一些服务器故障恢复的基本知识,知道在维修时可以做些什么来最快速的解决问题也可以减少故障停机时间。 本文并不是一本服务器故障解决的完全手册,但如果能够认真的按照下面的步骤维修维护,它也许可以解决大多数问题,但当你做完所有的这一切仍不管用时,不用惭愧,去找维修专家吧,可以放心的是,这些维修步骤不会出现大的损害,最坏的情形是“It does not work at all”。 本文主要分三部分,第一部分讲的是服务器故障排除的基本原则性问题。第二部分讲述了一些服务器硬件故障排除的实例。第三部分讲述了一些服务器软件故障排除的实例 第一部分服务器故障排除的基本原则性问题 一、服务器开机无显示应怎么办 1.检查供电环境,零-火;零-地电压? 2.检查电源指示灯,如果亮,正常吗? 3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗? 4. 是否更换过显示器,更换另一台显示器。 5. 去掉增加内存 6. 去掉增加的CPU 7.去掉增加的第三方I/O卡 8. 检查内存和CPU 插的是否牢靠 9. Clear CMOS 10. 更换主要备件,如系统板,内存和CPU 二、服务器故障排错的基本原则是什么 1. 尽量恢复系统缺省配置

a:硬件配置:去除第三方厂商备件和非标配备件; b:资源配置:清除CMOS,恢复资源初始配置; c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序; d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗? 2. 从基本到复杂 a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。 b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。 c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。 3. 交换对比 a:在最大可能相同的条件下,交换操作简单效果明显的部件; b: 交换NOS载体,既交换软件环境; c:交换硬件,既交换硬件环境; d:交换整机,既交换整体环境; 三、服务器故障排除需要收集哪些信息? 服务器信息: 1.机器型号 2.机器序列号(S/N: 如:NC00075534) 3.Bios 版本 4.是否增加其它设备,如网卡,SCSI 卡,内存,CPU 5.硬盘如何配置,是否做阵列, 阵列级别 6.安装什么操作系统及版本(Winnt 4, Netware, Sco, others)

DELL服务器硬件报错——错误代码和解决方法

以下为DELL服务器常见硬件故障代码,帮助大家快速定位DELL服务器硬件故障。代码文本原因纠正措施 E1000Failsafe voltage error.Contact support.(故障保护电压错误。请联 络支持人员。)查看系统事件记录以了解严重故 障事件。 断开系统的交流电源 10 秒,然后 重新启动系统。 如果问题仍然存在,请参阅"获得 帮助"。 E1114Ambient Temp exceeds allowed range.(环境温度超过了许可范 围。)环境温度到了超出许可范围的某 个点。 请参阅"系统冷却问题故障排除"。 E1116Memory disabled, temp above range.Power cycle AC.(已禁用内 存,温度超出范围。请关闭交流电源 再打开。)内存已超过许可温度,系统已将 其禁用以防止组件损坏。 断开系统的交流电源 10 秒,然后 重新启动系统。 请参阅"系统冷却问题故障排除"。 如果问题仍然存在,请参阅"获得 帮助"。 E1210Motherboard battery failure.Check battery.(母板电池故障。请检查电 池。)CMOS 电池丢失,或电压超出许 可范围。 请参阅"系统电池故障排除"。 E1211RAID Controller battery failure.Check battery.(RAID 控制 器电池故障。请检查电池。)RAID 电池丢失、损坏或因温度 问题而无法再充电。 重新插入 RAID 电池连接器。请参 阅"安装 RAID 电池"和"系统冷却 问题故障排除"。 E1216 3.3V Regulator failure.Reseat PCIe cards.(3.3V 稳压器故障。请 重置 PCIe 卡。)3.3V 稳压器出现故障。请卸下并重置 PCIe 扩充卡。如果 问题仍然存在,请参阅"扩充卡故 障排除"。 E1229CPU # VCORE Regulator failure.Reseat CPU.(CPU # VCORE 稳压器故障。请重置 CPU。)特定处理器 VCORE 稳压器出现 故障。 请重置处理器。请参阅"处理器故 障排除"。 如果问题仍然存在,请参阅"获得 帮助"。 E122A CPU # VTT Regulator failure.Reseat CPU.(CPU # VTT 稳 压器故障。请重置 CPU。)特定处理器 VTT 稳压器出现故 障。 请重置处理器。请参阅"处理器故 障排除"。 如果问题仍然存在,请参阅"获得 帮助"。 E122C CPU Power Fault.Power cycle AC.(CPU 电源故障。请关闭交流电源 再打开。)接通处理器电源时检测到电源故 障。 断开系统的交流电源 10 秒,然后 重新启动系统。 如果问题仍然存在,请参阅"获得 帮助"。 E122D Memory Regulator # Failed.Reseat DIMMs.(内存稳压器 # 故障。请重置 DIMM。)某个内存稳压器出现故障。重置内存模块。请参阅"系统内存 故障排除"。 E122E On-board regulator failed.Call support.(机载稳压器故障。请联络 支持人员。)某个内置稳压器出现故障。断开系统的交流电源 10 秒,然后 重新启动系统。 如果问题仍然存在,请参阅"获得 帮助"。 E1310Fan ## RPM exceeding range.Check fan.(风扇 ## 转速超出范围。请检 查风扇。)特定风扇的每分钟转数超出预期 的操作范围。 请参阅"系统冷却问题故障排除"。 E1311Fan module ## RPM exceeding range.Check fan.(风扇模块 ## 转 速超出范围。请检查风扇。)特定模块中的特定风扇的每分钟 转数超出预期的操作范围。 请参阅"系统冷却问题故障排除"。 E1313Fan redundancy lost.Check fans.(风扇冗余丢失。请检查风 扇。)系统中的风扇不再有冗余。如果 再次发生风扇故障,系统将存在 过热危险。 请查看 LCD 以了解其它滚动信 息。请参阅"风扇故障排除"。 E1410System Fatal Error detected.(检测到系统严重错误。)检测到严重的系统错误。请查看 LCD 以了解其它滚动信 息。断开系统的交流电源 10 秒, 然后重新启动系统。 如果问题仍然存在,请参阅"获得

服务器故障应急响应方案说明

服务器故障应急响应方案说明

服务器故障应急措施方案 ?部门?版本编号Ver_1.0 ?日期?密级公司内部使用 文档信息 文档名称服务器故障应急措施方案 日期版本号更新说明 -03-14Ver_1.0 建立文档、初始化

1.方案概述 导致服务器出现故障的问题是一个庞大的集合,能够分成很多种导致服务器出现故障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。 如果没有一套故障处理的标准,工程师只能靠经验去判断,可是依靠经验判断并不是不能够,有时候这种处理方式会很高效,可是大多数这种处理方式都是不太合理的,如果更换了运维工程师,显然每一个工程师经过经验去判断故障原因的方式都不尽相同,这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其它工程师以后借鉴故障处理案例。 故障处理标准化的优点: A.根据流程能够确定哪些故障应该立即汇报上级,哪些能 够自行解决后,再写故障处理报告汇报上级,这样做有 助于提高故障处理效率。 B.对于工程师经验判断,可能出现判断失误的情况,根据 故障判断流程,能够不遗漏任何可能的情况对服务器故 障进行排除。

C.有时候工程师处理了故障之后只是简单的做了一下汇 报,并没有一些故障处理过程的记录,以及故障处理的 详细时间记录,这样对需要追溯以前的具体情况的时候 就束手无策了。 2.划分故障等级 故障级别故障说明故障处理第一步 Ⅰ级(紧急)当系统出现下列相当严重的现象时,属一级故 障: 系统整体瘫痪,全部操作失去响应; 系统崩溃,关键硬件或文件系统损坏无法自 动修复; 发生间歇性、随机性、重复性的启动或应用 退出,无法保障公司业务的正常处理。 立即汇报上级 Ⅱ级(重要)当系统出现下列比较严重的现象时,属二级故 障: 关键部件(含软、硬件)停止工作,导致系 统降低运行状态,客户业务受到严重影响; 系统整体性能严重下降,无法自动恢复正常 运行状态; 重要数据、参数和配置信息损坏,无恢复, 导致客户数据及业务记录严重损失; 立即汇报上级 Ⅲ级(关键)当系统出现下列现象时,属三级故障: 部分设备或软件异常,局部功能受限,系统 整体仍可正常工作,对客户业务影响不大或 存在隐患; 关键备用设施因故障离线,主用设施仍能正 常工作; 系统运行指标(例如: I/O 效率、 CPU 效 率)受到直接或间接影响,客户业务处理缓 慢; 立即汇报上级 Ⅳ级(告警)当系统出现下列情况而不影响客户业务时,属四 级故障: 不在运行状态的线路、端口损坏; 出于安全考虑而且是受保护的软件降级或应 用重启; 因存储空间不足导致的性能下降; 系统硬件、软件产品功能、安装、或配置方 面的支援; 业务依然能够正常运作,可是服务器报出故 故障排错判断

生产设备故障处理流程图

流程图详细介绍 1、发现故障---指设备在运行中出现异常,下步可能造成停井和设 备严重损坏以及危及安全的设备状态。不管是那种方式得到的 信息,值班人员必须立即到现场进行确认和有效实施下步行动; 2、故障处理方法----指设备故障被确认后的处理方案,分为以下两 种情况: 第一种、虽然设备已出现异常,但是还在运行生产当中,随时 可能导致停井或严重后果,处理方法:必须立即启动备用设备 紧急替换在用设备,然后再进行故障修复工作,如没有备用设 备的马上汇报设备故障状况,根据设备故障产生后果的严重程 度来判断是否等待上级指示后再进行下步操作,如果严重的、 危及安全的立即停机、停井处理后再汇报。 第二种、设备发生故障已经停运、停井或者损坏,甚至出现严 重的事故,立即与中控取得联系,汇报造成停井的设备名称、 设备故障原因、事故原因等,立即启动备用设备紧急替换在用 设备,然后再进行故障修复工作,如没有备用设备的马上汇报 设备故障状况给中控、上级等,根据设备故障产生后果的严重 程度来判断是否等待上级指示再进行下步操作,如果严重的、 危及安全的立即停机、停井处理后再汇报。能够进行修复的故 障立即进行修复,在修复过程中可以联系维保人员、巡井人员、 专业工程师等,得到技术支持和援助,故障处理完毕后做好记 录,未能处理的请求维保人员和其他相关人员赶到现场处理,

如发生灾难性的事故,请启用《灾难处理应急预案》程序。3、故障修复:值班人员按预定的方案进行修复,遇到技术困难可 请求维保人员、专业工程师的技术支持,故障修复后做好详细 记录,主要包括:故障发生时间、故障发生过程、故障发生原 因、故障修复执行人、故障修复结果和使用材料等信息,未能 处理的请求支援和要求相关人员到达现场处理。 前三项都是以驻井人员为主来开展工作的,必须主动、积极。 4、维保接到通知后的处理方案,主要分为三种类型: 第一、是驻井人员已处理和解决的设备故障,请将处理的结果和措施报维保组备案,以便于设备日后的运行管理; 第二、维保人员接通知后立即赶到现场并及时修复的故障,驻井人员全力配合维修工作并做好故障修复的详细记录; 第三、维保人员未能立即赶到现场,驻井人员必须以保生产为工作前提,尽量准确的描述设备故障发生的细节,保持 与维保人员的沟通和确定维修人员具体到达时间。 5、维修人员赶到现场的处理要求:按技术要求进行故障修复,修 复完毕后交由值班人员使用,未能处理修复的,给出一个承诺 的修复时间表,如在技术上和材料方面有困难的及时取得专业 工程师、上级的支持。发现驻井人员操作有失误的,及时指正 和组织现场实操培训,并做好培训记录。 6、故障修复完毕:停机、停井的设备故障,修复后尽快通知中控 恢复生产,必须详细记录故障的五大要素(故障发生时间、故

视频服务器核心技术及常见故障解决方法

视频服务器核心技术及常见故障解决方法 随着各地城市监控项目的需求,国内网络应用的稳定与高带宽的飞速发展,这些都成为推动网络监控走向市场的的外部因素。和视频服务器类似的产品就是视频编码器了,但很多时候我们把视频服务器和视频编码器等同起来,但真正的视频服务器和编码器的最大区别是视频服务器更重视视频编码数率和低带宽传输,真正做到优秀的视频算法和产品的结合。 视频服务器在监控中作用 什么是网络视频监控?网络视频监控是相对模拟监控和数字监控而言的。在模拟监控系统中,图像的传输、交换以及存储均基于模拟信号处理技术。数字监控引入了先进的数字信号处理技术,实现了以DVR为典型代表的数字化存储。而网络监控以数字信号处理为基础,采用网络化的方式实现信号的传输、交换、控制、录像存储以及点播回放,并通过设立强大的中心管理平台(CMS),实现对系统内所有编解码设备及录像存储设备的统一管理与集中控制。对用户而言,仅需登录中心管理平台,即可实现全网监控资源的统一调用、浏览和管理。网络视频监控实现了端到端的网络化,系统架构由IP前端、TCP/IP网络、中心管理平台、网络存储设备、电视墙解码器以及客户端等几个部分组成。 视频服务器从核心功能上可以分为视频编码器和视频解码器两大类。视频编码器位于网络视频监控系统的前端,而视频解码器则位于用户访问端(或称为后端)。 视频编码器用于实现前端信号(视频、音频及其它信号)的数字化压缩和网络化,具体功能包括监控点模拟视音频信息和报警信息的接入、编码/压缩、传输以及外围设备(如摄像机、云镜、矩阵等)的控制。上述信息经视频编码器处理后通过IP网络上传至中心管理平台,再由中心管理平台分发至客户端、视频解码器以及录像存储设备。 视频编码器与网络摄像机最大的差异在于,视频编码器的视频源来自模拟摄像机,需要与模拟摄像机配合使用,而网络摄像机是一体化的,本身就集成了模拟视频采集功能。从目前的情况来看,尽管网络摄像机正在大量涌现,但因为以下两个原因,视频编码器仍将在网络视频监控系统中占据不可替代的重要位置:一是大量已建的模拟和数字监控系统亟待网络化改造,为了保护现有模拟摄像机的投资,这些改造将产生庞大的视频编码器部署需求;二是目前网络摄像机的选择面还远远没有模拟摄像机大,难以满足不同用户差异化的应用需求,所以很多应用场合必须基于模拟摄像机加视频编码器的模式实现前端的数字化网络化。 视频解码器则用于在PC客户端的控制下接收平台转发过来的网络视频监控码流,解码输出模拟信号到电视墙、音响等外围设备,通常部署在用户的监控中心。视频解码器与PC客户端的不同在于,视频解码器一般基于硬件解码,通过专门的显示设备显示监控图像,而PC客户端直接通过PC显示屏显示监控图像。由于PC客户端还有更多控制管理功能,且接入灵活、操作方面,所以基于PC客户端进行监控浏览的应用越来越普遍。但由于视频解码器基于硬件,性能稳定、图像质量好,因此对于很多需要集中解码上墙的应用还是有着很普遍的意义。 网络视频服务器关键技术 ARM+DSP双核构架 目前市场上的主流处理芯片,包括TI的达芬奇系列和海思的3510系列都采用了ARM+DSP 的双核架构。在这个架构中,ARM是芯片的主控处理器,负责控制芯片各个模块的工作以及运行操作系统、网络协议、应用软件等;DSP系统主要负责视音频编解码业务处理,通过处理器配合视频编解码模块共同完成音视频的编解码。 H.264视频压缩算法 H.264是由IT U-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)联合组建的联合视频组(JVT:jointvideoteam)提出的一个新的数字视频编码标准,它既是ITU-T的

服务器常见的十四个故障及分析

一、造成服务器无法启动的主要原因: 市电或电源线故障(断电或接触不良) 电源或电源模组故障 内存故障(一般伴有报警声) CPU故障(一般也会有报警声) 主板故障 其它插卡造成中断冲突 二、服务器无法启动? 检查电源线和各种I/O接线是否连接正常。 检查连接电源线后主板是否加电。 将服务器设为最小配置(只接单颗cpu,最少的内存,只连接显示器和键盘)直接短接主板开关跳线,看看是否能够启动。 检查电源,将所有的电源接口拔下,将电源的主板供电口的绿线和黑线短接,看看电源是否启动。 如果判断电源正常,则需要用替换法来排除故障,替换法是在最小化配置下先由最容易替换的配件开始替换(内存、cpu、主板) 三、系统频繁重启? 造成系统频繁重启的原因: 电源故障(替换法判断解决) 内存故障(可从BIOS错误报告中查出) 网络端口数据流量过大(工作压力过大) 软件故障(更新或重装操作系统解决) 四、服务器死机故障判断处理: 服务器死机故障比较难以判断,一般分为软件和硬件两个方面: 软件故障 硬件故障 软件故障 首先检查操作系统的系统日志,可以通过系统日志来判断部分造成死

机的原因。 电脑病毒的原因。 系统软件的bug或漏洞造成的死机,这种故障需要在判断硬件无故障后做出,而且需要软件提供商提供帮助。 软件使用不当或系统工作压力过大,可以请客户适当降低服务器的工作压力来看看是否能够解决 硬件故障 硬件冲突 电源故障或电源供电不足,可以通过对比计算服务器电源所有的负载功率的值来作出判断。 硬盘故障(通过扫描硬盘表面来检查是否有坏道) 内存故障(可以通过主板BIOS中的错误报告和操作系统的报错信息来判断) 主板故障(使用替换法来判断) CPU故障(使用替换法) 板卡故障(一般是SCSI/RAID卡或其他pci设备也有可能造成系统死机,可用替换法判断处理) 注意:系统死机故障需要在处理完后需要在一段时间内进行一定压力的拷机测试来尽一步检查故障是否彻底解决。 五、安装操作系统时提示找不到硬盘? 故障原因: 无物理硬盘设备 硬盘线缆连接问题 没有安装硬盘控制器驱动或驱动不相符 六、如何获得驱动程序? 使用随机光盘制作相应驱动 七、为什么用正确的驱动仍然无法加载硬盘控制器驱动? 查看是否启用了hostraid功能。

食品生产经营企业设备故障专项应急处置演练计划及记录

设备故障专项应急处置演练计划 一、应急小组的组成: 组长: 组员: 二、公司员工发现设备事故应通知应急小组的执班人员,维修人员应立即到达事故地点,按按设备管理的相关规定进行设备维修。 三、设备维修中,现场管理人员和设备维修人员应对事故影响产品的情况进行评价,如为一般事故,维修好设备,清理现场后设备正常运转即可处置完毕 四、如果发生交叉污染(不同工序产品非预期混淆和混入杂质),应立即通知质检部和HACCP小组进行危害评估和抽样检验,根据结果采取纠正的纠正措施, 五、如发生影响食品安全的设备事故,事故处置完成后应组织进行事故原因调查,以查明事故原因采取适当的纠正措施,防止类似设备事故的发生。 编制:生产部、HACCP小组 批准: 20××年2月16日

设备事故导致食品安全的应急响应演练记录 1、组织:由车间组织进行 2、时间:20××年2月16日 3、事故演练的范围:生产线烘干设备损坏,如果时间过长不能加工会导致品质下降。 4、演练的实施 4.1 20××年2月16日上午9:30操作工报告,生产线烘干设备故障。 4.1.2电话通知维修工,维修工5分钟后配带维修工具穿工作服,在车间进口处进行消毒后进入车间现场。 4.1.3经检查为电器控制故障,立即进行维修。维修时间20分钟,维修后起动运转正常,设备故障排除。 4.1.4维修完成进行现场清理,清点工具及更换后配件齐全后撤出现场。 5、演练效果评估 5.1故障发生及维修过程、信息沟通及时、准确。 5.2维修过程中故障诊断,排除迅速,技艺熟练。 5.3维修后现场进行清理,点清带来的工具和维修后废件杂物,后离开现场,保证不留交叉污染的隐患。 5.4通过以上演练,公司对设备事故将会导致的食品安全事故处置及时有效,有能力消除或降低相关的食品安全风险。 ×××××××××食品有限公司 生产部(车间) 20××年2月17日

设备故障处理流程文档

设备故障得应急 预案及流程 (2016年) 急救仪器设备出现意外故障处理流程 ↓ ↓ ↓ ↓ ↓

使用呼吸机过程中突遇故障(断电) 应急预案及程序 【应急预案】 (一)值班护士应熟知本病房,本班次使用呼吸机病人得病情。住院患者使用呼吸机过程中,如果突然遇到意外停电,跳闸等紧急情况时,医护人员应采取补救措施,以保护病人使用呼吸机得安全. (二)部分呼吸机本身带有蓄电池,在平时应定期充电,使蓄电池始终处于饱与状态,以保证在出现突发情况时能够正常运行、护理人员应定期观察呼吸机蓄电池充电情况、呼吸机能否正常工作及病人生命体征有无变化。 (三)呼吸机不能正常工作时,护士应立即停止应用呼吸机,迅速将简易呼吸器与患者呼吸道相连,用人工呼吸得方法调整患者呼吸;如果病人自主呼吸良好,应给予鼻导管吸氧;严密观察病人得呼吸、面色、意识等情况。 (四)突然断电时,护士应携带简易呼吸器到病人床前,同时通知值班医生,观察患者面色、呼吸、意识及呼吸机工作情况。 (五)立即与有关部门联系:总务科、医院办公室、医务办、护理部、医院总值班等,迅速采取各种措施,尽快恢复供电。 (六)护理人员应遵医嘱给予病人药物治疗。 (七)停电期间,本病区医生、护士不得离开病人,以便随时处理紧急情况。

(八)遵医嘱根据病人情况调整呼吸机参数。来电后,重新将呼吸机与病人呼吸道连接. (九)护理人员将停电经过及病人生命体征准确记录于护理记录单上。 【程序】 突然断电—-使用简易呼吸器——通知值班医生——调整病人呼吸-—观察病情变化-—立即联系有关部门——尽快恢复通电-—随时处理紧急情况—-遵医嘱给药——来电后重新调整应用呼吸机-—准确记录 心电监护仪故障应急预案及处理流程 【应急预案】 1、心电监护仪使用中出现意外停电、故障,首先检查电源线路连接就是否正确,接头就是否松动。 2、评估患者电极片安置部位就是否正确,有无松动。 3、采取以上措施后心电监护仪仍不能正常工作,立即拆下故障心电监护仪,启用备用心电监护仪. 4、严密观察患者得生命体征及病情变化,并向患者及家属做好解释工作. 5、悬挂“仪器故障牌”标识。 6、立即通知仪器维修人员,并报告护士长,作好记录交接,节假日或夜间备用心电监护仪不能满足需要时报告护理部值班人员.

服务器常见软件故障分析及解决

服务器常见软件故障分析及解决 服务器软件故障是在服务器故障中占有比例的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。 有一台HPLH6000R服务器,开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“VoltageRegulatorModule(VRM)over/under-voltage2.88V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。 维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU 管理板(CPUManagementControl)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。 FIRMWARE升级方法是,在服务器的NAVIGATOR(导航光盘)中提取CPU管理板(CMC)FIRMWARE的刷新程序,程序为Flash.EXE,然后将从网上下载的LH6KC.BIN(CPU管理板的FIRMWARE)拷贝到一张Dos启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH/CMCA:LH6KC.BIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。 任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。 目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。 当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是

服务器故障处理预案

服务器故障处理预案 公司 信息系统服务器故障应急处理预案(初稿) 第一部分服务器故障的处理响应 (3) 第二部分服务器硬件故障的诊断和处理..6 第三部分服务器软件故障的诊断和处理10 第一部分服务器故障的处理响应 (一)、服务器故障的定义本预案所指的服务器故障是指公司管理信息系统范围内的网络服务器设备

的故障。包括因设备质量原因导致的系统故障、 人为因素和网络系统外界因素而导致的系统故 障、计算机病毒感染及遭受黑客或恶意代码攻击 而导致的应用系统故障等。 涉及本预案的服务器设备包括小型机和 PC 服务器,设备清册参见附表1。 (二)、服务器故障的分类以服务器设备的故障性质和故障可能涉及的范围,按照以下的标准进行分类:服务器硬件故障:服务器硬件故障,包括服务器的底板故障、10板及IO设备故障、CPU 板及CPU 故障、内存板及内存故障、磁盘阵列及磁盘故障以及磁带库故障等。这类故障将直接影响服务器的正常运行,情况严重的,将使服务器陷于瘫痪状态,基于该服务器的所有应用将无法正常使用。如果该服务器承担的是网络的控制和管理职能,将对整个管理信息系统造成极为严重的影响;如果该服务器承担的是单个或多个应用系统的运行和管理,那么,这些应用系统将无法提供 正常的服务。 服务器系统软件故障:服务器的系统软件故障,

包括操作系统故障、网络控制和管理系统故障、集群管理系统故障等等。严重的服务器系统软件故障,同样会使服务器陷入瘫痪状态。故障造成的影响,视该服务器承担的应用系统的不同而不同,如果该服务器承担了网络的控制管理或关键应用职能,将有可能造成非常严重的后果。 关键应用服务故障:关键应用服务故障,包括Oracle 数据库故障、SQL Server 数据库故障、PI 数据库故障、OA 故障、WEB 服务故障、邮件服务故障等。这些应用服务软件的故障,对于相关的应用系统将产生一定的影响,其影响范围和损害程度随故障的性质和严重程度而定,严重的,将引起系统瘫痪。 (三)、服务器故障响应处理流程

服务器故障应急响应方案说明

服务器故障应急措施方案 … 部门版本编号 | 密级公司内部使用日期 文档信息 @ 文档名称服务器故障应急措施方案 日期版本号更新说明 2014-03-14: 建立文档、初始化 '

1.方案概述 导致服务器出现故障的问题是一个庞大的集合,可以分成很多种导致服务器出现故障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。 如果没有一套故障处理的标准,工程师只能靠经验去判断,但是依靠经验判断并不是不可以,有时候这种处理方式会很高效,但是大多数这种处理方式都是不太合理的,如果更换了运维工程师,显然每一个工程师通过经验去判断故障原因的方式都不尽相同,这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其他工程师以后借鉴故障处理案例。 故障处理标准化的优点: A.根据流程可以确定哪些故障应该立即汇报上级,哪些可以自行解决后,再写故 障处理报告汇报上级,这样做有助于提高故障处理效率。 B.对于工程师经验判断,可能出现判断失误的情况,根据故障判断流程,可以不 遗漏任何可能的情况对服务器故障进行排除。 C.! D.有时候工程师处理了故障之后只是简单的做了一下汇报,并没有一些故障处理 过程的记录,以及故障处理的详细时间记录,这样对需要追溯以前的具体情况 的时候就束手无策了。 2.划分故障等级 故障说明故障处理第一步 Ⅰ级(紧急)/ 当系统出现下列相当严重的现象时,属一级故障: 系统整体瘫痪,全部操作失去响应; 系统崩溃,关键硬件或文件系统损坏无法自 动修复; 发生间歇性、随机性、重复性的启动或应用 退出,无法保障公司业务的正常处理。 立即汇报上级 Ⅱ级 (重要) ;立即汇报上级

服务器故障应急响应方案

服务器故障应急措施方案 ?部门?版本编号Ver_1.0 ?日期?密级公司内部使用 日期版本号更新说明 2014-03-14Ver_1.0 建立文档、初始化

1.方案概述 导致服务器出现故障的问题是一个庞大的集合,可以分成很多种导致服务器出现故障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。 如果没有一套故障处理的标准,工程师只能靠经验去判断,但是依靠经验判断并不是不可以,有时候这种处理方式会很高效,但是大多数这种处理方式都是不太合理的,如果更换了运维工程师,显然每一个工程师通过经验去判断故障原因的方式都不尽相同,这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其他工程师以后借鉴故障处理案例。 故障处理标准化的优点: A.根据流程可以确定哪些故障应该立即汇报上级,哪些可以自行解决后,再写故 障处理报告汇报上级,这样做有助于提高故障处理效率。 B.对于工程师经验判断,可能出现判断失误的情况,根据故障判断流程,可以不 遗漏任何可能的情况对服务器故障进行排除。 C.有时候工程师处理了故障之后只是简单的做了一下汇报,并没有一些故障处理 过程的记录,以及故障处理的详细时间记录,这样对需要追溯以前的具体情况 的时候就束手无策了。 2.划分故障等级

重要数据、参数和配置信息损坏,无恢复,3.故障分类

4.故障应急处理流程

5.故障排错流程 否 6.数据与日志备份 在进行故障修复的时候,需要对服务器系统以及软件的配置文件进行修改,这些修改可能造成的风险是很大的,这时保存备份配置文件信息、应用数据、系统日志信息会很重要,可以直接通过shell脚本对服务器重要的数据进行备份。

相关文档
最新文档