容错与冗余技术

容错与冗余技术
容错与冗余技术

容错与冗余技术

容错控制的研究虽然面临着空前的挑战,但近些年来,相关研究领域,如鲁棒控制理论,模糊控制,神经网络控制研究的不断深入和发展,也给容错控制的研究带来了良好的机遇,提供了充分的条件。

而计算机控制技术、人工智能等技术的飞速发展,使得容错控制技术在实际工程中应用的可能性变得越来越大。

1.1 容错概念的提出

提高系统的可靠性一般有两种办法:1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。2、以冗余资源为代价来换取可靠性。

利用前一种方法来提高系统的可靠性是有限的,要想进一步的提高必须采用容错技术。

容错控制技术在国外发展的比较早,是由冯·诺依曼提出的。随着八十年代微型计算机的迅速发展和广泛应用,容错技术也得到了飞速的发展,容错技术被应用到各个环境中。

我国的容错技术现在发展的也很迅速,一些重要的工作场合如航天、电厂等现在都采用了容错技术。

所谓容错:就是容许错误,是指设备的一个或多个关键部分法生故障时,能够自动地进行检测与诊断,并采取相应措施,保证设备维持其规定功能,或牺牲性能来保证设备在可接受范围内继续工作。

错误一般分为两类:第一类是先天性的固有错,如元器件生产过程中造成的错、线路与程序在设计过程中产生的错。这一类的错误

需对其拆除、更换或修正,是不能容忍的。第二类的错后天性的错,它是由于设备在运行中产生了缺陷所导致的故障。这种故障有瞬时性、间歇性和永久性的区别。

容错技术是提高系统可靠性的重要途径。常采用的容错方法有硬件容错、软件容错、信息容错和时间容错。

1.1.1 智能容错的定义

智能容错IFT(Intelligent Fault-Tolerance):就是设备在运行过程中一个或多个关键部件发生故障或即将发生故障之前,利用人工智能理论和方法,通过采取有效措施,对故障自动进行补偿、抑制、消除、修复,以保证设备继续安全、高效、可靠运行,或以牺牲性能损失为代价,保证设备在规定的时间内完成其预定功能。

智能容错技术的构成方法可以采用以下三步来实现:

(1)建立系统的设计目标;

(2)设计智能容错处理机构;

(3)根据设计目标对所作的设计进行评价,如果满足目标则设计成功,否则将返回第二步进行重新设计,直到满足设计目标要求。

硬件智能容错HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技术。其基本思想是对设备的关键部件配备多重相似或相同部件,一旦检测和诊断出设备发生故障就可以立刻切换到备份部件,以达到故障容错的目的。图 1 所示为二冗余结构原理图:

图 1 二冗余结构原理图

1.1.2 硬件智能容错方式的分类

硬件智能容错按其工作方式可以分为:静态冗余、动态冗余和混合冗余。

静态冗余容错是通过表决和比较屏蔽系统中出现的故障,如图2所示:

图 2 三模冗余(静态冗余)TMR系统结构图

静态冗余容错的主要特点是:

(1)由于故障被屏蔽,所以不需要识别故障;

(2)容易与无冗余系统进行转换;

(3)所有模件都消耗能量。

动态冗余的主要方式是多重模块相继运行来维持设备正常工作。当检测到工作模块出现故障时,一个备用模块立即接替故障模块并投入工作。

动态冗余容错控制的主要特点是:

(1)仅有一个模件消耗能量;

(2)模件数目可随任务而改变,不会影响系统工作;

(3)转换装置和检测装置中任一故障都会导致系统失效。

图 3 动态冗余容错控制结构图

混合冗余兼动态冗余和静态冗余之所长,通常用H(n,k)来表示,如图4所示。图中的V为表决器,n表示模块的总数,k代表以表决方式实现静态冗余的模块数,而其余N-K个模块则作为表决系统中模块的备份。当参与表决的k个模块中(通常k>=3)有一个模块出现故障时,备份就替代该模块参与表决,维持静态冗余系统的完整。当所有备份都被替换完后,系统就成为一般的表决系统。

如在硬件构成的逻辑系统中表决器是由开关电路实现的,而软件中表决需要通过软件断言SA(Software Assertions)来实现。软件断言就是当软件在宿主系统中运行时,对其进程或功能的正确与否做出判断的条件。

图 4 H(n,k)系统结构

1.1.3 智能容错的故障处理方式

智能容错技术是一种外延广博的综合性技术。为了消除故障的影响,可以采用以下处理方式来实现:

(1)故障检测

通过故障检测可以迅速准确地对故障进行定位。故障检测是容错的基础。故障检测方式可分两种:脱机检测,即进行检测时系统不能做有用的工作,联机检测,即检测与系统工作同步进行,它具有实时检测的能力。

(2)故障定位

在给定的故障条件下,找出故障原因,确定发生故障元件的具体位置。定位的详细程度视具体问题而定,一般定位到进行系统重构所需的最小单元。

(3)故障屏蔽

故障屏蔽能够把故障效应掩盖起来,以防止故障对输出产生影响。故障屏蔽只能容忍故障,而不能给出故障警告,当冗余资源耗尽时,将使设备产生错误输出。

常用的故障屏蔽方法有多模表决冗余和屏蔽逻辑两种,多模表决冗余就是在设备的多个装置中,只要至少有一个装置正常工作,系统就能完成其功能;屏蔽逻辑主要用于门级电路的故障屏蔽,它能有效地限制逻辑线路门输出的临界故障与亚临界故障。

(4)故障限制

故障限制就是规定故障的传播范围,把故障效应的传播限制到

某一区域内。故障限制可以用软件和硬件来实现。

(5)故障隔离

故障隔离就是将故障隔离起来以防其进一步扩散和对设备产生影响。

(6)故障修复

当设备发生故障经检测和定位后,就可采取更换、修理、自修复等方式使设备复原。

(7)系统重组

当设备发生故障时,通过任务的重新分配或内部器件的重新组合,以切除或替换故障部件。

(8)系统重构

重构就是把修复的模件重新加入到系统中去。

(9)系统恢复

系统恢复就是经过屏蔽,重组等,使故障恢复到故障前的工作状态,不丢失或少丢失信息,并保证下一步的正常运行,系统恢复通常用软件实现。

1.1.4 智能容错的实现方法

智能容错的实现方法分为: (1)故障信号检测;(2)故障特征识别;(3)故障状态预测;(4)故障维修决策;(5)故障容错控制。

故障容错的目的在于针对不同的故障源和故障特征,采取相应的容错处理措施,对故障进行补偿、消除或自动修复,以保证设备继续安全可靠运行,或以牺牲性能损失为代价,保证设备在规定时间内完成其基本功能。结构框图如图5所示。

图 5 故障容错控制过程框图

2 冗余技术

所谓冗余(Redundancy)就是多余资源,冗余技术可供用来处理故障,冗余技术分为:

(1)硬件冗余法,硬件冗余HR(Hardware Redundancy)就是依靠附加硬件的冗余性和互补性来实现故障容错,附加硬件通常采用储备形式,当设备某个或某些关键部件发生故障后,可以用备份硬件替代故障部件,以削弱或消除故障的影响。

(2)软件冗余法,软件冗余SR(Software Redundancy)可以通过增加软件功能来实现,

其中包括修改容错控制策略、重新配置系统软件、有效地降低设备的运行速度、多模块并行诊断决策等。

冗余附加技术指为实现上述荣誉另外所需的资源和技术,包括程序、指令、数据以及存放和调动他们的空间和通道。他们和硬件冗余中冗余备份一样,在没有容错要求的系统中是不需要的,而在容错系统中却是必不可少的。以屏蔽硬件故障为目的容错技术中,冗余附加技术包括:(1)关键程序和数据的荣誉存储和调用;(2)进行检测、表决、切换、重构、纠错、复算的实现。在屏蔽软件故障的容错系统中,冗余附加件的构成不同。

冗余附加件包括:(1)独立设计的相同功能冗余备份程序的存储及调用;(2)实现纠错误检测及恢复的程序;(3)为实现容错软件所需固化了的程序。冗余、容错技术发展现状伴随着大规模和超大规模集成电路的发展,硬件可靠性大大提高而价格却大幅度降低,使采

用各种容错技术在经济上更易接受。

容错技术应用范围扩展于银行事务处理及各种实时控制系统,甚至许多通用计算机系统也采用了容错技术。在七八十年代,容错技术应用已经很广泛,例如:1975年的美国贝尔实验室的3A号ESS处理系统和美国TANDEM16容错事务处理系统:1976年的美国AMDAHL470V/6 容错通用计算机和1978 年容错空间计算机FTSC;1979年BIM推出容错的4300通用计算机系列;1980年容错多处理机FTMP 及软件实现的容错计算机sift研制成功等等。

随着电子交易的日益广泛,出现了商用容错计算机市场和以分布式为体系的容错计算机系统。容错的VLSI技术和人工智能在容错技术上的应用——计算机故障诊断专家系统,给冗余、容错技术的发展增添了新的活力。

冗余、容错技术理论的研究,也是相当活跃的。1952 年,冯·诺依曼作了一系列关于用重复逻辑模块改善系统可靠性的报告;1956 年,他发表了论文《概率逻辑及用不可靠元件设计可靠的结构》。

1971 年以来,IEEE 计算机学会容错技术委员会每年召开一次国际容错计算学术会议;1987 年中国计算机学会成立了容错计算专业委员会等等。基于容错控制(TFC)基本思想,FTC 的研究主要有被动容错控制(Passives)和主动容错控制(Activate)两种途径。

主动容错控制是在控制系统故障检测与FDD(Fau1t Detection and Diagnose)的基础上,当FDD 环节检测出系统故障后,重新调整控制器参数,甚至改变控制器结构,在保证系统稳定的前提下,尽量

恢复系统故障前的性能。被动容错控制是设计对故障具有容忍能力的强鲁棒控制器,被动容错控制的研究可以充分利用鲁棒控制技术的研究成果,且不受FDD 发展水平的限制,所以对于被动容错控制的研究取得的成果较多。

2. 1 主动容错控制

主动容错控制一般需要两个基本步骤:控制系统的故障检测、诊断与隔离及控制系统重构。控制系统故障检测、诊断与隔离是在现代控制理论、可靠性理论、数理统计、信号处理技术、模式识别技术,以及人工智能和计算机控制技术等技术基础上的一门应用型的边缘学科,FDD 技术是容错控制重要的支撑技术之一。

由于控制系统FDD 问题本身的复杂性和相关领域技术水平的限制,虽然人们对它的研究己达到了一定的水平,但至今仍没有解决这一问题特别有效的方法。

目前的控制系统FDD研究主要是沿着基于模型和基于知识两种途径展开。控制系统重构的方法主要有:控制律重新调度、控制器重构设计和模型跟踪重组控制,控制律重新调度的基本思想是,在离线的情况下计算出各种故障条件下所需的控制律增益参数,存储在计算机中,系统根据FDD 单元所给出的结果,选择合适增益参数,实现对各种故障的容错控制;控制器重构设计是根据故障系统的新环境,重新设置系统的工作点,并给出可改善系统性能的新控制器,现有的控制器重构方法主要有基于直接状态反馈或输出反馈的方法,以及基于动态补偿器的设计方法等;模型跟踪重组控制的基本原理是采

用模型参考自适应控制的思想,使得被控过程的输出自适应地跟踪参考模型的输出,因此这种容错控制不需要FDD单元。在主动容错控制方法中,能够较好地将FDD环节与系统重构相结合的是基于人工智能的容错控制方法。在容错控制中所运用的人工智能方法主要是人工神经元网络ANN(Artifictial Neural Network),利用ANN 对非线性特性的任意逼近能力和ANN所具有的从样本中学习、归纳和推理的能力,通过训练,使ANN能准确地估计出故障的大小,在此基础上再通过故障补偿来实现主动容错控制。被动容错控制

在目前的容错控制研究中,因为不受控制系统DFD 环节的限制,被动容错控制相对于主动容错控制要更容易实现,己有的可以实现被动容错控制的主要方法有:

完整性控制器设计、同时镇定和可靠镇定。完整性控制(Intgearl Contron)的概念由Niederlinski 在1971年提出,完整性控制是研究最早的一种容错控制技术,因为控制系统中传感器和执行器是最容易发生故障的部件,所以完整性控制具有很高的应用价值,在控制理论中,称多变量系统中出现故障时仍能保持系统稳定性的控制器为完整性控制器,完整性控制器设计是多变量系统中特有的问题;多模型设计方法又称同时镇定问题,自从Ackermann,Sakes 和Vidyasagar 等人提出来以后,己经成为容错控制的一个重要研究方向,同时稳定容错控制的设计方法是力求寻找一个公共的状态反馈控制器,使之能够同时稳定尽可能多的故障情况下的系统模型,同时兼顾到系统的动、静态品质特性的要求;使用多个补偿器进行可靠

镇定的概念是由Silage 于1980年最早提出,可靠镇定实际上是关于控制器的容错问题。

与被动容错控制相比较,主动容错控制具有更多的优点。从理论上讲,被动容错控制是故障情况下的强鲁棒控制,主动容错控制是故障情况下的强自适应控制。被动容错控制即使在系统正常的情况下控制律也要满足故障条件下的要求,这在系统正常时显然是一种过高的要求,设计未免过于保守,必然要以牺牲性能指标为代价。另外,在预想故障数目较多时,被动容错控制问题可能根本没有解,所以被动容错控制有较大的局限性。

基于控制系统FDD的主动容错控制实质是一种强自适应控制,它通过实时地对系统进行故障检测与诊断,当检测出系统故障后,根据不同的故障采取相应的措施,保证系统的稳定性和维持一定的性能指标。主动容错控制所用的主要方法是控制律重构和故障补偿,前者需要根据故障重新设计控制器,后者则是利用故障的信息确定一个控制补偿量,目的都是力图使故障后的系统尽量接近甚至等价于原系统。对于演变速度较慢的所谓软故障,多模自适应方法比较适合,但多模自适应方法中存在较多的算法上的问题,限制了这种方法的使用。

2.2容错控制研究中需要解决的主要问题

尽管控制系统FDD 和TFC 技术的研究在理论上己取得了较为丰富的成果,但距离实际工程应用的要求还有相当大的差距,理论上也还有许多问题有待人们去研究和探索。

本文主要研究了实时系统多机冗余、容错系统的故障检测与诊断、控制系统重构、容错实时运行库技术以及容错控制在工程中的应用等问题,而在目前的研究中,上述领域主要存在的问题分述如下: (1)控制系统故障检测与诊断中存在的问题:控制系统故障的模型是从理论上进行FDD 研究的前提,但现有故障建模方法简单,与实际系统故障具有的复杂性和多样性成为一对急待解决的矛盾。目前还没有一个在FDD 和FTC 中比较统一的故障表示方法。就拿CPU 测试来说,多数的结构测试法需要详细的系统逻辑电路图,并在此基础上建立故障模型。

结构测试法通过验证电路中没有任何符合故障模型的故障存在,来说明电路中没有影响电路功能的实际物理故障存在。由于微处理器是一个输入、输出引线数目有限,内部结构异常复杂的大规模集成电路,很难在逻辑门这一级确立准确的故障模型;另一方面受到引出脚数目的限制,使得故障的可控制性与可观察性大大降低;此外控制逻辑部分与数据处理逻辑部分都在一块芯片上,不能预先假定哪一部分总是好的。

(2)系统重构方面存在的主要问题:目前的系统重构问题研究较少。现有的运用广义逆的方法、基于状态反馈或输出反馈、特征值和结构配置等方法,仅是从数学模型角度将系统恢复,而不是从系统性能角度恢复,所以重构后的系统鲁棒性不能保证,有时甚至稳定性也难以保证。而且,多数重构对系统模型的要求也很苛刻。就目前的控制系统FDD研究水平来看,想获得故障后系统模型的全部信息是

相当困难的,所以寻求故障后控制律完全重构是理想化的。由于故障的大小是未知的,所以在设计时进行稳定性分析是非常困难的,只能对预想的故障进行稳定性分析。

(3)实时系统和容错技术相结合存在的主要问题:如何将软件容错技术有机地融合到实时系统中去,具有与发展软件容错技术本身同样重要的地位。

目前,尽管实时系统的软件容错技术已经取得了非常巨大的进步,但在实时系统中并未得到充分地应用。

(4)用户在冗余、容错系统设计中存在的主要问题:应用程序设计者在考虑如何实现应用软件的功能要求同时,要兼顾软件容错,这不可避免地,甚至是成倍地加大了应用系统开发的工作量,增加系统的复杂程度,反而加大应用出错的可能性。应用层容错将容错机制的实现和应用程序融为一体,当需要在同一操作系统上开发新的应用时,所有工作必须从头开始,不符合工程实际中提高软件重用性,开发低成本、高可靠系统的大趋势。

(5)容错控制理论运用于工程实际时需要解决的问题:容错控制在理论研究上比较困难,在实际工程中的应用更少。由于不同的工程领域所遇到的问题有很大的差异,不可能以一个统一的框架来解决所有的问题。理论研究所用的模型和假设同工程实际的差别比较大,这也是容错控制理论在工程实际中运用所遇到的主要困难。各个领域的工程技术人员,应结合自己的工程实际,选择相应的控制方案。因此,统一系统架构,构建支持多种主流冗余、容错模式的运行库,对

工程设计人员来说是很重要的。

容错方案和双机热备方案的对比 2

为什么选择容错 Stratus容错服务器与双机热备方案比较

一、容错技术和集群的比较: 1、可靠性比较:

容错服务器的可靠性可达到99.999%以上,其设计原理是“容错原则---容忍错误发生,当出现任意单点故障时,不会对系统造成任何影响,系统仍然连续工作”。而集群方案的可靠性只能在99.9%~99.99%之间,其设计原理是“避错原则----当系统出现故障时,如何补救错误、避免错误进一步扩大”。 2、拓扑结构比较: 计算机业界对可靠性的定义 容错服务器独立服务器 阵的独立服务器 系统 消除单点心 系统结构复杂 环节过多,外部连接 故障发生点多 系统结构简单 如同单机,内部连接 故障发生点少 无单点故障的集群方案 无单点故障的容错方案

3、软硬件架构: 在系统架构中,容错服务器结构简单,且是单软件映像。 1、 工作原理比较: 硬软件结构复杂 依赖集群软件 对所有软件和硬件要求苛刻 切换机制只能覆盖部分实际应用情况 硬软件结构简单 纯硬件容错结构 对所有软件无特殊要求 时钟同步,无需切换

容错方案在出现任何单点故障的情况之下系统工作状态均不会中断,且是零切换时间,进而完整的保护了静态数据及动态数据。 2、维护管理及实施比较: 由于容错服务器的冗余全部是依靠硬件完成的,避免了对软件及人为因素的依赖,因此,其实施及维护非常简单、方便。 3、集群和容错软硬件可靠性实测比较: System Application Fault-Tolerant Cluster Conventional 容错方案的软硬件可靠性是最高的;集群方案虽然略微提高了硬件的可靠性,但却牺牲了软件本身的可靠性。

Stratus (美国容错)ftServer -“最可靠的 计算机系统”

Stratus ftServer –世界上最可靠的计算机系统 一.Sales points ftServer采用Stratus Technologies,Inc(美国容错技术公司)30年的可靠性设计技术,在Intel的IA架构上推出的具有无可匹敌的稳定性的计算机运行平台。同时得益于Intel Xeon 多核芯片技术的强大处理能力,保障用户对运算能力需求。 容错— Fault Tolerance 设计方案(永不停顿方案) 在计算机系统的设备或某一部件出现故障的情况下,计算机系统仍能保持程序的正确运行,并给出正确结果。可靠性达到99.999或以上。 高可用性-High Availability 设计方案(故障恢复方案) 采用内部冗余的计算机或部件,通过硬件组合软件的方法,在运行模块(服务器主机)出现问题时,通过另外备用的模块或机器来恢复原来的程序运行。可靠性达到99.9或99.99。 “真正”容错服务器– ftServer 1)通过芯片和高效的容错技术设计,在一个或多个不同设备产生故障的情况下,系统运行稳如泰山; 2)像单机一样的使用和管理环境,极大降低IT部署,操作和维护难度; 3)全部在线维护故障设备,系统不会停止运行。 二.ftServer 体系结构(DMR双模设计)

三.Stratus (美国容错)ftServer的技术特点及优势 1) Stratus ftServer 采用全冗余的部件级别容错技术设计,使得整台服务器的任何部件不会出现单点故障。 2) ftServer采用Stratus独有的时钟同步(lock step)专利技术,让整台服务器时刻在双工状态下运行,为你提供业界具有最高可靠性的计算机运行平台。 3) ftServer的独特技术设计,使得整套系统变成一个像单机一样的平台,操作系统和应用软件的使用就像单机,安装,维护,使用简单;应用部署快捷,简便。 4) ftServer提供整套系统所有主要部件的联机更换。 包括CPU, 内存,I/O控制器,主板,磁盘,网卡,电源等。更换部件自动 回复同步,无需太多人工干预;应用系统不会产生任何切换,动态运算数据 和静态磁盘数据完整保护,绝无丢失。 5) ftServer提供状态指示灯和图形化的状态管理,机器运行状态一目了然。 6) ftServer可以提供联机的实时故障自动报告,并可提供随时的强有力的远程服务支持,让你使用更加放心。 7) ftServer采用开放式平台设计架构,支持Windows,Redhat Linux, VMWare等主要操作系统应用平台,应用程序方案简单,不需要为在操作系统之上复杂的高可用设计方案付出额外的软件和维护成本。 8) Stratus ftServer是为用户的生产、IT运行环境中提供安全为稳定运行环境的理想选择。

HP服务器型号

1. HP ProLiant DL 服务器 2. HP ProLiant ML 服务器 3.HP ProLiant BL 刀片式服务器 (HP Blade System 刀片服务器系统) 其中DL服务器就是机柜式服务器,ML服务器是塔式服务器,BL既刀片 服务器. 惠普服务器的型号一般为DL(or ML or BL)字母+数字 如ML110 中ML为机型是塔式服务器 110为机器编号后面再开发的为 G2,再开发为G3如此类推,既第2代,第3代. 如DL 380 G4 中DL为机柜式服务器 380为机器编号 G4为基于DL380开发的第四代服务器. 惠普的每个产品都有相对应的商品编码:一般类似为 417453-AA1(此 为DL 380 G5 服务器的编码). 而根据主板平台即CPU的不同分为Intel平台和AMD平台,在命名上 的差别就体现在命名的最后一位。 Intel平台服务器使用尾数为0的命名方式,而AMD平台则尾数为5. 如ML110与ML115的区别就在于主板平台的不同。 同样DL160与DL165, DL180与DL185都有着这样的区别。 惠普服务器分类 1.HP ProLiant 系列服务器 » HP ProLiant DL 机架服务器 » HP ProLiant ML 塔式服务器 » HP Proliant BL 刀片服务器系统 2.HP Integrity 动能服务器 » HP Integrity入门级服务器 » HP Integrity中高端服务器 » HP Integrity高端服务器 » HP Integrity BL 刀片服务器 3.HP Integrity NonStop 容错服务器 » HP 9000服务器 » 电信级服务器 4.按操作系统分类 » x86 » HP-UX 11i » Intel® Itanium® 2 » Windows® » PA-RISC » Linux » Alpha » OpenVMS » NonStop OS » Tru64 UNIX 5.按处理器类型分类

stratus ftserver 2700 容错服务器 说明书

容错服务器ftServer2700/4700/640 0操作与维护指南

第一部分系统概览 系统特征 Stratus ftServer2700、4700和6400系统包含冗余的组件,他们同时处理相同的指令(锁步技术)。如果其中一个组件出现错误,它的冗余组件将会继续工作,消除系统停机时间和数据丢失。 Stratus故障安全软件为时钟同步技术增加了一个安全层,阻止许多因为停机或者断电所引起的软件错误。软件问题被捕获、分析,报告给Stratus,允许技术支持人员在软件问题出现之前准确定位出错处。Stratus 的强化的设备驱动更加的增强了在ftServer系统上的操作系统的可靠性。 Stratus ActiveService Network(ASN)提供可选的远程服务和Stratus Customer Assistance Center(CAC)的系统事件管理或者你的授权的Stratus服务代理商。 很多ftServer系统的组件是用户可更换单元(CRU),允许最少的培训或工具的现场人员进行简单移除和替换故障组件。 系统图释 每个ftServer2700,4700和6400系统都是安装在机架上的,包括底盘和两个CPU-I/O模块,前端面板由一个DVD驱动和USB口组装成,黑色的面板是由一个可选的连接到ASN网络的调制解调器组成,整个机器还包括一些外围组件。 ftServer2700,4700和6400系统分别为下列配置: ●ftServer2700系统:单路四核处理器 ●ftServer4700系统:双路四核处理器 ●ftServer6400系统:双路八核处理器 注意··················································· 在ftServer2700系统中,在second插槽中仍然有散热片以便气流通畅。 图1-1展示ftServer2700,4700和6400系统包含宝石切面外科的前置外观。在宝石切面外 壳的右上边有四个灯管,当外壳被安装的时候它们提供了系统状态等的显示信息。

冗余设计与容错设计

冗余设计与容错设计 1.冗余与容错的概念 提高产品可靠性的措施大体上可以分为两类:第一类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。而冗余是实现产品容 错的一种重要手段。

“容错(fault tolerance)”定义:系统或程序在出 现特定的故障情况下,能继续正确运行的能力。“冗余(redundancy)”定义:用多于一种的途径来完成一 个规定功能。“容错”反映了产品或系统在发生故障情 况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。严格地说,冗余属于容错设计范畴。 从原理上讲,冗余作为容错设计的重要手段,其实施流 程和原则也同样适用与其他容错设计活动。

2.冗余设计 2.1.目的 冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象 (a) 通过提高质量和基本可靠性等方法不能满足任务可靠性 要求的功能通道或产品组成单元; (b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元; (c)影响任务成败的可靠性关键项目和薄弱环节; (d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目; (e)其他在设计中需要采用冗余设计的功能通道或产品组 成单元。

重大关键技术

2016年省重点研发计划(重大关键技术) 指南 为深入贯彻创新、协调、绿色、开放、共享发展理念,围绕全省“十三五”发展规划要求,发布2016年省重点研发计划(重大关键技术)指南。 一、信息技术领域 围绕高性能电子功能材料、行业专用集成电路芯片、高端电子信息装备、基础软件、信息安全等5个重点技术方向开展关键技术研发,推进全省信息产业领域创新链与产业链的深度契合,实现全产业链关键环节重要产品的国产化替代,提升我省电子信息产业核心竞争力,保障信息安全。 1、高性能电子功能材料关键技术 研究内容:实现高端电子器件基础材料的技术突破。重点开展超细粉体技术、电子纤维微张力控制、新型后处理工艺及浸润剂配方、高压水枪开纤技术等高性能电子功能材料加工制备关键技术研究。 预期目标:电子功能材料性能达到或超过国外同类产品技术水平,满足超大规模集成电路、超薄覆铜板、陶瓷电容器、绝缘栅双极型晶体管等高性能电子元器件的质量与性能要求,实现电子功能材料的规模化生产和国产替代。

2、行业专用集成电路芯片关键技术 研究内容:实现专用集成电路设计、测试、封装等重点环节关键技术突破。重点开展软硬件逻辑模块复用、高安全性加密算法可重构IP核、Java虚拟机及Applet应用自主芯片等关键技术研发,实现存储器、无线射频、智能卡芯片、图像传感器、光电传感器等集成电路芯片自主设计目标。 预期目标:专用芯片及器件产品实现在通信、金融、社保、物流、特种设备管理、安全管控等行业中的规模化应用和国产替代。 3、高端电子信息装备关键技术 研究内容:掌握并实现高端信息装备核心技术突破。重点开展体系结构设计、异构众核内存计算和交换加速技术、高速IO存取、恒流充电式脉冲调制器和大功率扫描系统等关键技术研发,推动产业可持续发展。 预期目标:研制新一代高端容错服务器、高能工业电子加速器、微波成像雷达等高端电子信息整套装备并形成技术标准,实现在部分重要领域高端信息装备国产替代。 4、基础软件关键技术 研究内容:实现基础软件核心技术突破。实现云数据中心虚拟化、轻量多层容器管理、资源调度和应用敏捷迁移、自适应动态负载平衡、交互式处理、并行处理分析和大数据隐私保护等关键技术突破。重点开展新一代融合架构的云数

计算机容错技术课后习题

第1章绪论 1、为什么说可靠度高的系统其安全度必然高,但安全度高的系统其可靠度不一定高? 答:可靠度:设在时刻t0系统正常运行,则系统在整个时间区间[t0 ,t]内正常运行的条件概率,称为系统在时刻t的~,记为R(t)。 安全度:设在时刻t0系统正常运行,则系统在时刻t的安全度S(t)指系统在[t0 ,t]内正常运行的条件概率加上系统在时刻t处于失效安全状态的条件概率,即S(t) = R(t) +FS(t)。 由二者的定义可以看出,当R(t)的值越大,即可靠度越高,且FS(t)值一定时,S(t) = R(t) +FS(t)的值必定会越大,即安全度会很高;反之,安全度高的系统是由R(t)和FS(t)两项参数共同决定的,R(t)的值可以是一个定值,而FS(t)的值可以取一个较高值时,可以满足高可靠度的要求。 2、可靠度高的系统是否可用度一定高?可用度高的系统是否可靠度一定高,为什么? 答:设在时刻t0系统正常运行,则系统在整个时间区间[t0 ,t]内正常运行的条件概率,称为系统在时刻t的可靠度,记为R(t)。系统在时刻t的可用度:指系统在该时刻正确执行其功能的概率,记为A(t),瞬时可用度。系统处于稳定状态时,其可用度不再随时间变化,称为稳态可用度,记为Ass。 可靠度高的系统,可用度一定高,而可用度高的系统,可靠度不一定高。 注意:可用度与可靠度的区别,可用度只考虑时刻t系统正确执行功能的概率,并不关心时刻t以前系统是否发生过时效。而可靠度则要考虑在整个时间区间【t0,t】内系统正常运行的概率。 3、系统可维度是如何影响系统的可用度的,试用公式予以说明。 答:系统的可维度M(t)是指系统失效后,在时间间隔t=Tf内被修复的概率。可用度A=T0/(T0+Tf),T0:正常运行时间,系统完成功能的时间。Tf:故障时间,故障修理时间之和。 4、实现冗余有哪几种方式? 答:(1)硬件冗余:应用附加硬件来实现故障检测及容错:典型的列子如双机比较系统,三模表决系统等。 (2)软件冗余:应用附加软件来实现故障检测及容错。典型例子如故障诊断程

关于计算机服务器系统的容错技术

关于计算机服务器系统的容错技术 摘要随着时代的发展,信息技术的进步,计算机已经逐渐的成为了各行各业中不可取代的一部分,我国对于计算机技术的应用也十分的广泛。其中,计算机服务器系统是计算机中十分重要的一个技术,能够为国防、医疗以及金融等各个行业为计算机系统提供不间断的服务,如果它出现问题那么会造成十分严重的损失,因此应该对于计算机服务器系统的容错技术进行足够的重视并且对其进行进一步的发展。本文主要对其进行了详细的阐述。 关键词计算机服务器系统容错技术 中图分类号:TP302.8 文献标识码:A 1容错必要性 随着计算机技术的普及,通过计算机系统来进行信息的传输并提供服务逐渐应用的越来越广泛,但是计算机的软硬件都有可能会发生故障,这些故障如果没有及时的进行解决很容易造成巨大的损失,甚至会造成整个服务的终止网络也会因此而瘫痪,因此产生难以估量的损失。因此,系统的容错性以及不间断的性质显得尤为重要,为了能够更好地保证系统安全、可靠地运行,必须要采取一定的措施来保证计算机系统能够在出现故障的时候已然可以正常的使用。经过人

们地长时间的研究,总结出来了两种方法,一种叫做避错,就是使用正确的设计并且进行相应的质量控制尽可能的避免系统产生错误,防止将错误引进系统之中,但是在实际的运行中难免会产生一些意料之外的事情,因此这种方法在实施起来有着很大的难度。另外一种就是容错,在系统中出现了某些硬件或者软件的错误的时候,系统能够执行规定的一组程序,或者说这种程序不会因为系统的故障而被中断或者在中途被修改,且其执行的结果也不包含系统中的故障引起的差错。 随着科技的不断发展,计算机技术的逐渐普及,设备的安全性以及可靠性逐渐的引起了越来越多的人的重视,因此计算机服务器系统的容错技术十分重要。当系统的内部出现故障的时候,通过容错技术能够消除故障产生的影响并且使系统最终仍然能够给出正确的结果。按照时间进行故障的划分,故障可以分为以下几种类型:永久性的故障、间歇性的故障以及偶然性的故障。随着计算机的硬件技术的不断发展,容错计算机的系统开销逐渐的降低,同时纠错的速度变得越来越快。而软件方面的容错,对于硬件不会提出过高的要求。 2容错技术概述 容错指的是计算机系统的一个或者多个关键的部件发生故障或者将要发生故障的时候,仍然能够保持正常的工作

ftServer容错服务器日常维护手册

ftServer容错服务器日常维护手册 2009-9-9 上海海得 1. ftServer 系统启动和关闭 每个ftServer 服务器都有两个电源按钮(每个CPU-IO 机箱都有一个电源按钮),在系统插上电源线后,系统中仅有一个电源按钮亮灯,且处于活动(Active)状态,这个按钮被称为主用按钮(Primary), 可用于当前系统的启动。另外的那个电源按钮被称为备用按钮(Standby)。(在一定条件下,主用按钮和备用按钮会做切换。)ftServer 服务器需要连接两路电源,我们建议至少其中的一路使用UPS输出的电源,以防因电源故障造成的系统停机;ftServer 服务器背部有连接显示器的端口,还有3 个USB口供连接键盘和鼠标使用。 如果我们需要启动系统,只要先打开显示器电源,然后按一下ftServer 的主用按钮即可;在正常情况下,如果需要关闭系统,必须在Windows系统中操作:开始——关机——确定, Windows会处理当前文件操作,并关闭系统。 在系统运行时,如果我们长时间按下主用电源按钮,可以强行关闭系统操作(这可能会导致系统或应用数据被破坏,用户应承担相应的风险) 2. ftServer 上的各种LED指示灯 ftServer 服务器上有各种LED 指示灯,它们显示了当前的系统或部件的运行情况; 分别说明如下: CPU-IO机箱状态指示灯 每个CPU-IO 机箱均有两组状态指示灯,分别位于机箱前部的左侧(机架式)或下方(塔式)和机箱后部的左下侧(机架式)或左上侧(塔式)。每组指示灯中有一个绿灯代表电源指示灯;有一个红灯代表故障鉴别灯;有一个白/橙双色灯代表单双运行状态灯;(见下图)观察这些指示灯,可以大致判断该CPU-IO机箱的当前运行情况。 (机箱前部) (机箱后部)

容错与冗余技术(DOC)

容错与冗余技术 容错控制的研究虽然面临着空前的挑战,但近些年来,相关研究领域,如鲁棒控制理论,模糊控制,神经网络控制研究的不断深入和发展,也给容错控制的研究带来了良好的机遇,提供了充分的条件。 而计算机控制技术、人工智能等技术的飞速发展,使得容错控制技术在实际工程中应用的可能性变得越来越大。 1.1 容错概念的提出 提高系统的可靠性一般有两种办法:1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。2、以冗余资源为代价来换取可靠性。 利用前一种方法来提高系统的可靠性是有限的,要想进一步的提高必须采用容错技术。 容错控制技术在国外发展的比较早,是由冯·诺依曼提出的。随着八十年代微型计算机的迅速发展和广泛应用,容错技术也得到了飞速的发展,容错技术被应用到各个环境中。 我国的容错技术现在发展的也很迅速,一些重要的工作场合如航天、电厂等现在都采用了容错技术。 所谓容错:就是容许错误,是指设备的一个或多个关键部分法生故障时,能够自动地进行检测与诊断,并采取相应措施,保证设备维持其规定功能,或牺牲性能来保证设备在可接受范围内继续工作。 错误一般分为两类:第一类是先天性的固有错,如元器件生产过程中造成的错、线路与程序在设计过程中产生的错。这一类的错误

需对其拆除、更换或修正,是不能容忍的。第二类的错后天性的错,它是由于设备在运行中产生了缺陷所导致的故障。这种故障有瞬时性、间歇性和永久性的区别。 容错技术是提高系统可靠性的重要途径。常采用的容错方法有硬件容错、软件容错、信息容错和时间容错。 1.1.1 智能容错的定义 智能容错IFT(Intelligent Fault-Tolerance):就是设备在运行过程中一个或多个关键部件发生故障或即将发生故障之前,利用人工智能理论和方法,通过采取有效措施,对故障自动进行补偿、抑制、消除、修复,以保证设备继续安全、高效、可靠运行,或以牺牲性能损失为代价,保证设备在规定的时间内完成其预定功能。 智能容错技术的构成方法可以采用以下三步来实现: (1)建立系统的设计目标; (2)设计智能容错处理机构; (3)根据设计目标对所作的设计进行评价,如果满足目标则设计成功,否则将返回第二步进行重新设计,直到满足设计目标要求。 硬件智能容错HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技术。其基本思想是对设备的关键部件配备多重相似或相同部件,一旦检测和诊断出设备发生故障就可以立刻切换到备份部件,以达到故障容错的目的。图1 所示为二冗余结构原理图:

对容错服务器的正确理解

被误读的NEC容错服务器 误读一:容错很好很昂贵 由于容错服务器采用的是硬件全冗余的技术,而且在两套硬件之间还通过独立芯片和软件保证故障时零时间切换,因而其价格要比同规格的PC服务器高出许多。 更为典型的一个用户反馈是:NEC容错服务器产品很好,可用性很高,但是不是像IBM的z系列和HP的NonStop系列动辄都是百万美元? 从上述两种态度可以看出中国用户对容错的应用定位尚属模糊。根据IDC 数据,广义概念上的容错市场约占整个服务器市场的4%,包括IBM的System z、HP的NonStop和NEC的Santa Clara、Express 5800/ft以及Stratus的ftServer 6200,前三者为传统大型主机,后二者为容错服务器。显而易见,这一市场面对的是属于中高端的窄众用户。 而了解上述用户特征后自然明白,容错所谓的昂贵其实纯属误读:如果只需要进行基础IT建设的成长型企业,完全可以采用普通的塔式和机架式服务器,而不必使用容错产品;如果是需要高可用性的中高端用户,那么容错服务器相对大型主机而言,其实相当便宜。以NEC的容错服务器Express 5800/ft为例,目前最低配置的成本甚至已经与同规格的双机热备方案相当。 误读二:虚拟化取代容错 随着用户对计算资源利用率、灵活调度的高度渴求,导致近几年来虚拟技术在PC服务器上快速增长,VMware、Citrix等技术供应商也迅速走红,由此也产生了这样一种观念:虚拟万能,即通过虚拟就能实现计算资源的灵活配置、调度并保证故障时的自动迁移。 虚拟化真是万灵丹吗?显然不是。从硬件架构的层次上看,虚拟层位于底层硬件之上,只能解决虚拟机及其应用的故障迁移。如果是底层硬件故障,诸如主板故障、电源故障、CPU损坏等,虚拟技术是无能为力的。 随着虚拟化技术的普及,容错服务器会变得越来越重要。因为当物理机宕掉的时候,它会影响运行在其上的虚拟机,所以越是依赖虚拟技术的用户越需要保证底层硬件的高可用。 误读三:容错使用很复杂 对于使用过大型主机和双机热备等高可用方案的用户来说,配置及管理系统绝对是一个技术上的考验。这也使得一些用户产生了“高可用等于高复杂”的观点。

计算机冗余容错

计算机冗余容错 fault-tolerant computer rongCUO llSUQn』l 容错计算机(fault-tol~t computer)在硬件发生故障或软件产生错误时仍能继续运行并完成其既定任务的计算机系统。容错计算机的主要设计目标是为了提高计算机系统的可靠性、可用性和可信性等性能。提高计算 ·600· 容机可靠性的方法可以分为两大类:一类是排错技术,主要是通过使用可靠性高的元器件,严格的老化筛选等方法达到尽量减少发生故障的可能性; 另一类是容错技术,主要是运用元余技术来抵消由于故障而引起的影响。所谓冗余技术,简单地说,是在正常系统运行所需的基础上加上一定数量的信息、时间或后备硬件、后备软件的方法。冗余技术是容错计算机中容错技术的基础。冗余大致上可以分为下列几种类型: (l)硬件冗余以检测或屏蔽故障为目的而添加一定硬件设备的方法; (2)软件冗余为了检测或屏蔽软件中的错误而添加一些在正常运行时不需要的软件的方法; (3)信息冗余在实现正常功能所需的信息以外,再附加一些信息的方法,例如纠错码就是信息冗余的一种形式; (4)时间冗余使用附加一定的时间来完成系统的功能,这些附加的时间主要是用在故障检测或故障屏蔽上。 最常用的硬件冗余是硬件的重复。硬件冗余一般可以分为3种类型:静态冗余(也称为被动冗余)、动态冗余(也称为主动冗余)和混合冗余。静态冗余将已发生的故障屏蔽起来,使不影响运行的结果。被动冗余主要是依靠表决机制来屏蔽发生的故障,因而这种方法不需要故障检测也不必进行系统的重新配置等就可以获得容错的效果。被动冗余技术中使用最广的是三模元余TM[R。TMR的基本概念是使用3套完全相同的硬件系统执行相同的任务,然后由1个多数表决器对这3套系统的输出进行表决以确定整个系统的输出。多数表决器的表决原则是三中取二。也就是说三模冗余系统可以容许有1个模块发生故障而不至于影响到整个系统运行的正确性。三模冗余的关键是多数表决器本身的可靠性问题。提高多数表决器可靠性的方法有多种,其中最常用的方法是多数表决器本身也使用三模冗余,即利用3个独立的多数表决器,每个多数表决器分别接受来自3个模块的输出作为它的输人,然后再分别输出。这种系统通常被称为带三重多数表决器的三模冗余系统。除了三模冗余系统外,还有多于三模的冗余,称为N模冗余。主动冗余技术与被动冗余技术相反,它是通过故障检测、故障定位及故障恢复等手段达到容错的目的。因而在主动冗余技术中不是去防止故障引发的错误,而是暴露由故障引发的错误,从而去纠正错误。主动冗余技术中

双机热备份和单机容错技术的比较

目前主流应用的服务器容错技术有三类,它们分别是:服务器群集技术、双机热备份技术和单机容错技术。它们各自所对应的容错级别是从低到高的,也就是说服务器群集技术容错级别最低,而单机容错技术级别最高。由此可知它们各自应用的行业容错级别需求也是从低到高的。本文主要介绍后两种容错技术,先来看一下双机热备份容错技术。 一、双机热备份技术 双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜(也可没有,而是在各自的服务器中采取RAID卡)及相应的双机热备份软件组成,如图1所示。 图1(点击看大图) 在这个容错方案中,操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据是通过磁盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。 双机热备份系统采用“心跳”方法保证主系统与备用系统的联系。所谓“心跳”,指的是主从系统之间相互按照一定的时间间隔发送通讯信号,表明各自系统当前的运行状态。一旦“心跳”信号表明主机系统发生故障,或者备用系统无法收到主机系统的“心跳” 信号,则系统的高可用性管理软件认为主机系统发生故障,主机停止工作,并将系统资源转移到备用系统上,备用系统将替代主机发挥作用,以保证网络服务运行不间断。 双机热备份方案中,根据两台服务器的工作方式可以有三种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍。 双机热备模式即目前通常所说的active/standby 方式,active服务器处于

计算机数据库以及系统容错性处理

龙源期刊网 https://www.360docs.net/doc/7717775642.html, 计算机数据库以及系统容错性处理 作者:洪雄 来源:《科教导刊·电子版》2018年第07期 摘要计算机在现在的生活中是非常普遍存在的事物,也是我们的生活工作所必需的,计算机是一个多种先进技术结合的产物,计算机中的很多应用对于其他领域来说,会有很大的借鉴意义。计算机的图形处理技术是一种很复杂的技术应用,在数据计算领域的应用,是此技术的一种有效利用,同时对于数据计算来说,也是一种有益的借鉴来源,二者在一定程度上,可以说是有效的结合使用,相互促进,相互提高。本文通过对计算机交互式的图形技术的分析,引出可视化技术在数据的挖掘中所起到的重要作用,进而阐述交互式技术在计算机的图形处理中的重要作用。 关键词计算机算法数据计算可视化 中图分类号:TP302 文献标识码:A 0引言 几年来,计算机的图形处理技术越来越频繁的被人们应用于其他的领域,也是现在这个科学技术非常发达的社会的一种形势所在。现代一种相对比较常见的数据的可视化技术,指的就是运用计算机的图形学和图像处理的技术,把数据转化为可以被识别的图像或者图形,进而可以在显示器的屏幕上显示出来,被看见的使用者所理解和接受,同时还要进行交互处理的技术。这样一种技术涉及的技术和领域比较广泛,计算机的图形学、图像处理技术、计算机设计、计算机视觉技术、人机交互技术等,多个领域的结合才是一种比较实用的技术。今年以来,随着网络科学技术和网上电子商务技术的发展,在以往科学计算可视化的基础之上,出现了信息可视化的概念,并且逐渐在吸引人们的眼球,成为科学技术领域研究的焦点问题。我们都知道,“可视化”就是使之可见,可以被看见,就是可视化的最基本的含义,那么,数据在挖掘过程中,很多活动都可以被认为是可视化,利用可视化的技术进行信息的传递、知识的发现等。 1计算机服务器系统容错系统的概述 我们所说的计算机故障,指的是由于计算机不见的物理实现、操作错误或者是设计错误等原因引起的计算机系统硬件或者是软件错误的状态。故障的诊断、检测和恢复技术主要是作为计算机容错技术的重要组成部分,如果计算机系统要进行故障恢复的操作,首先就要进行检测、诊断的技术来对故障所处的位置进行定位。作为恢复的前提,我们还应该在恢复技术的作用下使得计算机系统能够恢复到无故障时候的状态并且开始正常工作。当前运用的计算机容错技术最基本的方法是冗余技术,而硬件冗余、软件冗余、信息冗余以及时间冗余技术是作为冗余技术的四个主要组成部分。

冗余与双机热备

冗余与双机热备 冗余: 指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间 Redundan,自动备援,即当某一设备发生损坏时,它可以自动作为后备式设备替代该设备。 冗余系统配件主要有: 电源:高端服务器产品中普遍采用双电源系统,这两个电源是负载均衡的,即在系统工作时它们都为系统提供电力,当一个电源出现故障时,另一个电源就承担所有的负载。有些服务器系统实现了DC的冗余,另一些服务器产品如 Micron公司的NetFRAME 9000实现了AC、DC的全冗余。 存储子系统:存储子系统是整个服务器系统中最容易发生故障的地方。以下几种方法可以实现该子系统的冗余。磁盘镜像:将相同的数据分别写入两个磁盘中。磁盘双联:为镜像磁盘增加了一个I/O控制器,就形成了磁盘双联,使总线争用情况得到改善; RAID:廉价冗余磁盘阵列(Redundant array of inexpensive disks)的缩写。顾名思义,它由几个磁盘组成,通过一个控制器协调运动机制使单个数据流依次写入这几个磁盘中。RAID3系统由5个磁盘构成,其中4 个磁盘存储数据,1个磁盘存储校验信息。如果一个磁盘发生故障,可以在线更换故障盘,并通过另3个磁盘和校验盘重新创建新盘上的数据。RAID5将校验信息分布在5个磁盘上,这样可更换任一磁盘,其余与RAID3相同。 I/O卡:对服务器来说,主要指网卡和硬盘控制卡的冗余。网卡冗余是在服务器中插上双网卡。冗余网卡技术原为大型机及中型机上的技术,现在也逐渐被PC服务器所拥有。PC服务器如 Micron公司的NetFRAME9200最多实现4个网卡的冗余,这4个网卡各承担25%的网络流量。康柏公司的所有 ProSignia/Proliant服务器都具有容错冗余双网卡。 PCI总线:代表Micron公司最高技术水平的产品NetFRAME 9200采用三重对等PCI 技术,优化PCI总线的带宽,提升硬盘、网卡等高速设备的数据传输速度。 CPU:系统中主处理器并不会经常出现故障,但对称多处理器(SMP)能让多个CPU 分担工作以提供某种程度的容错。 双机热备: 所谓双机热备就是使用互为备份的两台服务器共同执行同一服务,其中一台主机为工作机(Primary Server),另一台主机为备份机(Standby Server)。在系统正常情况下,工作机为应用系统提供服务,备份机监视工作机的运行情况(工作机同时也在检测备份机是否正常),当工作机出现异常,不能支持应用系统运

容错服务器的简单理解

美国stratus公司:容错服务器的简单理 【IT168 资讯】美国stratus容错公司出品的容错服务器是一种可以实现零时间停机的服务器,在一些关键性领域里应用非常广泛,例如:电信、机场、银行、冶金行业、安全、医院的HIS系统、电视台、公安、电力行业、大的零售业,等一切要求高可用性的行业, 这类用户以前在没有办法的情况下选用的是高可用性集群,英文原文为High Availability Cluster, 简称双机HA Cluster,是指以减少服务中断(宕机)时间为目的的服务器集群技术,简称双机,这种方式实现起来非常复杂,后期维护成本也很高,对技术人员的依赖也非常严重,而且因为cluster不能实现0时间停机(消除单点故障的集群可用性是99.99%),所以他的设计目标是减少停机时间而不是避免停机时间,而容错服务器设计上就是避免停机,高可用性的时间是99.9998%,如果2个方案价格相当,您选择减少停机还是选择避免停机的服务器呢? 容错的优势 容错服务器的几点优势简单说说!(主要是和双机的区别说一下) 1:国际著名检测组织IDC公布:容错服务器的高可用性是99.9998%,而消除单点故障的集群是99.99%,IBM的大型机为99.995% 2:设计上容错的目标是避免停机,而集群是减少停机(当我们有避免停机的方案,我们为什么还要选择减少停机的方案呢?) 3:容错能有效的保护动态数据不丢失,而双机只能保证写入硬盘的数据; 4:容错能支持热插拔任意的硬件,包括主板,CPU等关键性硬件, 5:布置非常简单,只需要装单套系统,数据库也只需要一套,免去双机软件和研发代码的麻烦,从而大大的减少工程师的工作量,也大大的减少了软件成本. 6:速度比同配置的双机要快20%以上. 7:后期维护成本几乎为零,而双机的话需要工程师的支持,或许由于系统补丁的升级需要额外的研发双机代码来保证系统的切换成功; 8:容错是没有切换时间的,而双机由于硬件宕机后会发生停顿的情况,还有就是双机切换工作是有可能不成功的. 9.容错的windows系统因为有容错揪错芯片,所以容错的windows系统比传统的windows系统稳定,也许您用很多年都不需要重起windows,因为它永远和刚开机一样快,容错因此承诺容错的windows比IBM的AIX还稳定.因为您用上了容错就不知道什么叫停机. 上面说了很多与双机对比的优势,下面我们通过案例来实际了解容错到底有多好:

容错服务器技术vs双机冗余

容错之"错" 容错服务器技术vs双机冗余 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9 的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术 美国容错公司技术顾问高峰在接受记者采访时表示,容错服务器的技术并不难理解,计算机自诞生之日起,其系统结构并没有发生任何改变,仍然是冯诺依曼教授所提出的由运算器(CA)、控制器(CC)、存储器M和输入/输出装置所组成,而容错服务器的思路就是把所

容错服务器技术vs双机冗余

容错服务器技术vs双机冗余 2009-05-21 来自:网界网作者:宋家雨收藏 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术

容错服务器ftserver260045006300技术规格

容错ftServer设备清单及技术规格 容错服务器ftServer设备清单: 序 号 设备名称规格型号单位数量备注项目名称XXX 1.1 XX服务器 ftServer 6300 双路双模块冗余机架式服务器, 4U,Intel Nehalem-EP Xeon X5570 2.93 GHz Quad-Core Processor,8 MB L2 Cache,8 GB至96 GB DDR31066MHz DIMM内存,内置双口intel 10/100/1000 自适应网卡一对, 一对10/100M VTM 网络管理端口。最多可配置16块SAS 2.5”硬盘,可 选15 K (73 GB, 146 GB)或7.2 K (500 GB)不同规格 的硬盘。其中一对为系统盘,其他全部作为数据盘 (系统内置RAID1)。共有8个PCI-E/PCI-X插槽(四 个半高,四个全高),4 USB, 2 COM, 1 VGA 显示 器接口, 1个DVD-R/W光驱。 故障安全软件ftSSS 5.3 or above Windows Server 2003/2008 简体中文企业版 32/64-bit(1-2 CPU) 套 1.2 XX服务器 ftServer 4500 双路双模块冗余机架式服务器, 4U,Intel Nehalem-EP Xeon E5504 2.0GHz Quad-Core Processor,4 MB L2 Cache,8 GB至96 GB DDR3800MHz DIMM内存,内置双口intel 10/100/1000 自适应网卡一对, 一对10/100M VTM 网络管理端口。最多可配置16块SAS 2.5”硬盘,可 选15 K (73 GB, 146 GB)或7.2 K (500 GB)不同规格 的硬盘。其中一对为系统盘,其他全部作为数据盘 (系统内置RAID1)。共有8个PCI-E/PCI-X插槽(四 套

相关文档
最新文档