阵列技术RAID0、1、3、5、10、30、50介绍

附录ＡＤｉｓｋ　Ａｒｒａｙ磁盘阵列基本原理　

Ａ．１　我们为什幺需要磁盘阵列　

目前人们逐渐认识了磁盘阵列技术。磁盘阵列技术可以详细地划分为若干个级别０－５　ＲＡＩＤ技术，并且又发展了所谓的　ＲＡＩＤ　Ｌｅｖｅｌ　１０，　３０，　５０的新的级别，本章节都会一一介绍。ＲＡＩＤ是廉价冗余磁盘阵列（Ｒｅｄｕｎｄａｎｔ　Ａｒｒａｙ　ｏｆ　Ｉｎｅｘｐｅｎｓｉｖｅ　Ｄｉｓｋ）的简称。用ＲＡＩＤ的好处简单的说就是：　

安全性高，速度快，数据容量超大　

某些级别的ＲＡＩＤ技术可以把速度提高到单个硬盘驱动器的４００％。磁盘阵列把多个硬盘驱动器连接在一起协同工作，大大提高了速度，同时把硬盘系统的可靠性提高到接近无错的境界。这些“容错”系统速度极快，同时可靠性极高。　

这本小册子将讨论这些新技术，以及不同级别ＲＡＩＤ的优缺点。我们并不想涉及那些关键性的技术细节问题，而是将磁盘阵列和ＲＡＩＤ技术介绍给对它们尚不熟悉的人们。相信这将帮助你选用合适的ＲＡＩＤ技术。　

Ａ．２　ＲＡＩＤ级别的定义　

下表提供了６级ＲＡＩＤ的简单定义，本书其后部分将对各级ＲＡＩＤ进行更详尽的描述。　

ＲＡＩＤ级别　描述　速度＊　容错性能　

ＲＡＩＤ　０　硬盘分段　硬盘并行输入／出　无　

ＲＡＩＤ　１　硬盘镜像　没有提高　有（允许单个硬盘错）　

ＲＡＩＤ　２　硬盘分段加汉明码纠错　没有提高　有（允许单个硬盘错）　

ＲＡＩＤ　３　硬盘分段加专用　

奇偶校验盘　

硬盘并行输入／出　有（允许单个硬盘错）　

ＲＡＩＤ　４　硬盘分段加专用　

奇偶校验盘需异步硬盘　

硬盘并行输入／出　有（允许单个硬盘错）　

ＲＡＩＤ　５　硬盘分段加奇偶校验　

分布在各硬盘　硬盘并行输入／出比　

ＲＡＩＤ０稍慢　

有（允许单个硬盘错）　

＊对于单一容量昂贵硬盘（ＳＬＥＤ）的性能提高　

Ａ．３　硬盘数据跨盘（Ｓｐａｎｎｉｎｇ）　

数据跨盘技术使多个硬盘像一个硬盘那样工作，这使用户通过组合已有的资源或增加一些资源来廉价地突破现有的硬盘空间限制。　

图２所示为４个３００兆字节的硬盘驱动器连结在一起，构成一个ＳＣＳＩ系统。用户只看到一个有１２００兆字节的Ｃ盘，而不是看到Ｃ，　Ｄ，　Ｅ，　Ｆ，　４个３００兆字节的硬盘。在这样的环境中，系统管理员不必担心某个硬盘上会发生硬盘安全检空间不够的情况。因为现在１２００兆字节的容量全在一个卷（Ｖｏｌｕｍｅ）上（例如硬盘Ｃ上）。系统管理员可以安全地建立所需要的任何层次的文件系统，而不需要在多个单独硬盘环境的限制下，计划他的文件系统。　

硬盘数据跨盘本身并不是ＲＡＩＤ，它不能改善硬盘的可靠性和速度。但是它有这样的好处，即多个小型廉价硬盘可以根据需要增加到硬盘子系统上。　

图２硬盘数据跨盘　

Ａ．４　硬盘分段（Ｄｉｓｋ　Ｓｔｒｉｐｉｎｇ，

　ＲＡＩＤ　０）　

硬盘分段的方法把数据写到多个硬盘，而不是只写到一个盘上，这也叫作ＲＡＩＤ　Ｏ，在磁盘阵列子系统中，数据按系统规定的“段”（Ｓｅｇｍｅｎｔ）为单位依次写入多个硬盘，例如数据段１写入硬盘０，段２写入硬盘１，段３写入硬盘２等等。当数据写完最后一个硬盘时，它就重新从盘０的下一可用段开始写入，写数据的全过程按此重复直至数据写完。　

段由块组成，而块又由字节组成。因此，当段的大小为４个块，而块又由２５６个字节组成时，依字节大小计算，段的大小等于１０２４个字节。第１～１０２４字节写入盘０，第１０２５～２０４８字节写盘１等。假如我们的硬盘子系统有５个硬盘，我们要写２０，０００个字节，则数据将如图３那样存储。　

图３硬盘分段　

总之，由于硬盘分段的方法，是把数据立即写入（读出）多个硬盘，因此它的速度比较快。实际上，数据的传输是顺序的，但多个读（或写）操作则可以相互重迭进行。这就是说，正当段１在写入驱动器０时，段２写入驱动器１的操作也开始了；而当段２尚在写盘驱动器１时，段３数据已送驱动器２；如此类推，在同一时刻有几个盘（即使不是所有的盘）在同时写数据。因为数据送入盘驱动器的速度要远大于写入物理盘的速度。因此只要根据这个特点编制出控制软件，就能实现上述数据同时写盘的操作。　

遗憾的是ＲＡＩＤ　０不是提供冗余的数据，这是非常危险的。因为必须保证整个硬盘子系统都正常工作，计算器才能正常工作，例如，假使一个文件的段１（在驱动器０），段２（在驱动器１），段３（在驱动器２），则只要驱动器０，　１，　２中有一个产生故障，就会引起问题；如果驱动器１故障，则我们只能从驱动器物理地取得段１和段３的数据。幸运的是可以找到一个解决办法，这就是硬盘分段和数据冗余。下面一小节将讨论这个问题。　

Ａ．５　硬盘镜像（ＲＡＩＤ　１）　

硬盘镜像（ＲＡＩＤ　１）是容错磁盘阵列技术最传统的一种形式，在工业界中相对地最被了解，它最重要的优点是百分之百的数据冗余。ＲＡＩＤ　０通过简单地将一个盘上的所有数据拷贝到第二个盘上（或等价的存储设备上）来实现数据冗余，这种方法虽然简单且实现起来相对较容易，但它的缺点是要比单个无冗余硬盘贵一倍，因为必须购买另一个硬盘用作第一个硬盘的镜像。

图４硬盘镜像　

硬盘镜像最简单的形式，是通过把二个硬盘连结在一个控制器上来实现的。图４说明了硬盘镜像。数据写在某一硬盘上时，它同时被写在相应的镜像盘上。当一个盘驱动器发生故障，计算器系统仍能正常工作，因为它可以在剩下的那块好盘上操作数据。

因为二个盘互为镜像，哪个盘出故障都无关紧要，二是盘在任何时间都包含相同的数据，任何一个都可以当作工作盘。　

在硬盘镜像这个简单的ＲＡＩＤ方式中，仍能采用一些优化速度的方法，例如平衡读请求负荷。当多个用户同时请求得到数据时，可以将读数据的请示分散到二个硬盘中去，使读负荷平均地分布在二个硬盘上。这种方法可观地提高了读数据的性能，因为二个硬盘在同一时刻读取不同的数据片。但是硬盘镜像不能改善写数据的性能。　

被“镜像”的硬盘也可被镜像到其它存储设备上，例如可擦写光盘驱动器，虽然以光盘作镜像盘没有用硬盘的速度快，但这种方法比没有使用镜像盘毕竟减少了丢失数据的危险性。　

Ａ．６　硬盘分段和数据冗余（ＲＡＩＤ２～５）　

硬盘分段改善了硬盘子系统的性能，因为向硬盘读写数据的速度与硬盘子系统中硬盘数目成正比地增加，但它的缺点是硬盘子系统中任一硬盘的故障都会导致整个计算器系统失败。　

整个分段的硬盘子系统部能作镜像，如果已经用了４个硬盘进行分段，我们可以再增加４个分段的硬盘作为原来４个硬盘的镜像。很明显这是昂贵的（虽然可能比镜像一个昂贵的大硬盘来得便宜）。　

可以不用镜像而用其它数据冗余的方法来提供高容错性能。可以选择一神奇偶码模式来实现上述方法，可以外加一个专作奇偶校验用的硬盘（如在ＲＡＩＤ　３中），或者可把奇偶校验数据分散分布在磁盘阵列的全部硬盘中。分布式奇偶校验数据（ＲＡＩＤ　５）的例子示于图５中。　

图５　ＲＡＩＤ　５的硬盘分段　

不管用何种级别的ＲＡＩＤ，磁盘阵列总是用异或（ＸＯＲ）操作来产生奇偶数据，当子系统中有一个硬盘发生故障时，也是用异或操作重建数据。下列简单分析了ＸＯＲ是怎样工作的。　

硬盘　Ａ　Ｂ　Ｃ　奇偶盘　（Ａ，　Ｂ，　Ｃ　异或的结果）　

数据　１　０　１　０　

首先记住在ＸＯＲ操作中，２个数异或的结果是真（即“１”）时，这二个数中有且一个数为１（另一个为０）。我们假设Ａ，　Ｂ，　Ｃ中Ｂ盘故障，此时可将Ａ，　Ｃ和奇偶数据ＸＯＲ起来，得到Ｂ盘失去的数据０；同样如Ｃ盘故障，我们可将Ａ，　Ｂ盘和奇偶盘的数据ＸＯＲ，得到Ｃ盘原先的数据１。　

如果推广到７个盘的硬盘子系统：　

硬盘　Ａ　Ｂ　Ｃ　Ｄ　Ｅ　Ｆ　奇偶位　

数据　０　０　０　１　０　１　０　

如果丢失Ｂ盘数据，我们可以ＸＯＲ　Ａ，　Ｃ，　Ｄ，　Ｅ，　Ｆ和奇偶位来得到失去的Ｂ盘数据０。而ＸＯＲ　Ａ，　Ｂ，　Ｃ，　Ｄ，　Ｅ，　Ｆ和奇偶位可恢复Ｄ盘的数据１。　

采用专用的奇偶校验盘（如上所述，即ＲＡＩＤ　３），当同时产生多个写操作时，每次操作都要对奇偶盘进行写入。这将产生Ｉ／Ｏ瓶颈效应。　

ＲＡＩＤ　５把奇偶位信息分散分布在硬盘子系统的所有硬盘上（而不是使用专用的校验盘０，这就改善了上述ＲＡＩＤ　３中的奇偶盘

盘Ｂ，第二个用户可能把数据写在硬盘Ｃ，而奇偶信息写在硬盘Ｄ。从这里也可看出ＲＡＩＤ　５的性能会得到提高。　

这种方法将提高硬盘子系统的事务处理速度。所谓事务处理，是指处理从许多不同用户来的多个硬盘Ｉ／Ｏ操作，由于可能同时有很多用户与硬盘打交道，迅速向硬盘写入数据，有时几乎是同时进行的，这种情况下，用分布式奇偶盘的方式比起用专用奇偶盘，瓶颈效应发生的可能性要小。　

对硬盘操作来说，ＲＡＩＤ　５的写性能比不上直接硬盘分段（指没有校验信息的ＲＡＩＤ　０）。因为产生或存储奇偶码需要一些额外操作。例如，在修改一个硬盘上的数据时，其它盘上对应段的数据（即使是无关的数据）也要读入主机，以便产生必要的奇偶信息。奇偶段产生后（这要花一些时间），我们要将更新的数据段和奇偶段写入硬盘，这通常称为读－修改－写策略。因此，虽然ＲＡＩＤ　５比ＲＡＩＤ　０优越，但就写性能来说，ＲＡＩＤ　５不如ＲＡＩＤ　０。　

镜像技术（ＲＡＩＤ　１）和数据奇偶位分段（ＲＡＩＤ　５）用于上述的硬盘子系统中时，都产生冗余信息。但在ＲＡＩＤ　１中，所有数据都被复制到第二个相同的硬盘上。在ＲＡＩＤ　５，数据的ＸＯＲ码而不是数据本身被复制，因此可以用数据的非常紧凑的表现方式，来恢复由于某一硬盘故障而丢失的数据。　

采用ＲＡＩＤ　５时，对于５个硬盘的数组，有大约２０％的硬盘空间用于存放奇偶码，而十个硬盘的数组只有约１０％的空间存放奇偶码。在可用空间总的格式化空间的意义上来说，硬盘系统中的硬盘越多该系统就越省钱。　

总之，ＲＡＩＤ　５把硬盘分段和奇偶冗余技术的优点结合在一起，这样的硬盘子系统特别适合于事务处理环境，例如民航售票处，汽车出租站，销售系统的终端，等等。在某些场合，可优先考虑ＲＡＩＤ　１（在那些写数据比读数据更频繁的情况）。但许多情况，ＲＡＩＤ　５提供了将高性能，低价格和数据安全性综合在一起的解决办法。　

Ａ．７　ＲＡＩＤ　Ｌｅｖｅｌ　１０　

Ａ．８　ＲＡＩＤ　Ｌｅｖｅｌ　３０　

Ａ．９　ＲＡＩＤ　Ｌｅｖｅｌ　５０　

Ａ．１０硬盘故障恢复　

镜像和ＲＡＩＤ提供了从硬盘故障中恢复数据的新方法。因为数据的所有部分都是有冗余的，数据有效性很高（即使在硬盘发生故障时）。另一重要优点是，恢复数据的工作不用立即进行，因为系统可以在一个硬盘有故障的情况下正常工作，当然在这种情况下，剩下的系统就不再有容错性能。要避免丢失数据就必须在第二个硬盘故障前恢复数据。更换故障硬盘后，要进行数据恢复。在镜像系统中“镜像”　盘上有一个数据备份，因此故障硬盘（主硬盘或镜像硬盘）通过简单的硬盘到硬盘的拷贝操作就能重建数据，如图６所示。这个拷贝操作比从磁带上恢复数据要快得多。　

图６从镜像盘恢复数据　

ＲＡＩＤ　５硬盘子系统中，故障硬盘通过无故障硬盘上存放的纠错（奇偶）码信息来重建数据。正常盘上的数据（包括奇偶信息部分）被读出，并计算出故障盘丢失的那些数据，然后写入新替换的盘。这个过程示于图７，它比从磁带上恢复数据要快不少。　设计灵活的磁盘阵列可以重新配置，替换盘的地址不一定和故障盘的地址相同，见图８。这种灵活性使安装过程变得更为简单。备用盘甚至可以在硬盘故障前预先连在系统上。在那种情况下，它就成了随时可用的备份盘。这种盘通常称为“热备份”。　

图７目标地址相同的替换盘　

图８目标地址不同的替换盘　

Ａ．１１　可靠性和可用性　

这二个名词虽然相互关连，事实上却代表了硬盘故障的二个不同的方面，可靠性指的是硬盘在给定条件下发生故障的概率。可用性指的是硬盘在某种用途中可能用的时间。利用这二个名词，我们可以看到磁盘阵列是怎样把我们的硬盘系统可靠性提高到接近百分之百的程度的。　

磁盘阵列可以改善硬盘系统的可靠性。因为某一硬盘中的数据可以从其它硬盘的数据中重新产生出来（例如ＲＡＩＤ　５），所以很少会有机会使整个硬盘系统失效。硬盘子系统的可靠性因而大大改善了。　

图表９是ＲＡＩＤ硬盘子系统与单个硬盘子系统的可靠性比较：　

硬盘子系统　硬盘数时间　平均故障时间＊　平均丢失数据时间　

单个硬盘　１　３０，０００　小时　３０，００００小时　

ＲＡＩＤ　０　（分段）　５　３０，０００　小时　６，００００小时　

ＲＡＩＤ　１　（镜像）　２　３０，０００　小时　４９，９百万小时　

ＲＡＩＤ　５（分段加奇偶码）　５　３０，０００　小时　４６，２百万小时　

图表９　硬盘子系统可靠性比较　

我们还必须考虑系统的可用性。单一硬盘系统的可用性比没有数据冗余的磁盘阵列要好，而冗余磁盘阵列的可用性比单个硬盘的好得多。这是因为冗余磁盘阵列允许单个硬盘出错，而继续正常工作。此外，一个硬盘故障后的系统恢复时间也大大缩短（与从磁带恢复数据相比）。最后，因为发生故障时，硬盘上的数据是故障当时的数据，替换后的硬盘也将包含故障时的数据（举例说，前天晚上的备份数据）。　

要得到完全的容错性能，计算器硬盘子系统的其它部件也必须有冗余例如提供二个电源，或者配备双份硬盘控制器。没有其它部件的冗余，即使有非常可靠的硬盘子系统，还是不能完全防止计算机系统的失效。　

Ａ．１２　最佳化的容错系统　

如先前所述，直接分段的子系统（ＲＡＩＤ　０）可以大大提高读写速度（相对单个硬盘），因为数据分散在多个硬盘，硬盘操作可以同时进行。　

把二个直接分段的硬盘子系统组成镜像，可以有效地构成全冗余的快速硬盘子系统。这样的子系统，其硬盘操作甚至比直接分段的硬盘子系统还快，因为该系统能同时执行二个读操作（每个硬盘一个读操作），而写操作的速度则与非镜像直接分段子系统几乎一样，因为把数据同时写入二个硬盘只需花费很少的额外开销。　

通过我们前面所述的概念，例如双工：（双控制器，双电源等），可以进一步改善有关冗余方面的问题。双控制器还使我们得到更高的数据传输速度，因为控制器成为子系统性能瓶颈的可能性更小了。　

Ａ．１３　磁盘阵列技术术语　

硬盘镜像（Ｄｉｓｋ　Ｍｉｒｒｏｒｉｎｇ）：硬盘镜像最简单的形式是，一个主机控制器带二个互为镜像的硬盘。数据同时写入二个硬盘，二个硬盘上的数据完全相同，因此一个硬盘故障时，另一个硬盘可提供数据。　

硬盘数据跨盘（Ｄｉｓｋ　Ｓｐａｎｎｉｎｇ）：利用这种技术，几个硬盘看上去像是一个大硬盘；这个虚拟盘可以把数据跨盘存储在不同的物理盘上，用户不需关心哪个盘上存有他需要的数据。　

硬盘数据分段（Ｄｉｓｋ　Ｓｔｒｉｐｉｎｇ）：数据分散存储在几个盘上。数据的第一段放在盘０，第２段放在盘１，……直至达到硬盘链中的最后一个盘，然后下一个逻辑段将放在硬盘０，再下一个逻辑段放在盘１，如此循环直至完成写操作。　

双控（Ｄｕｐｌｅｘｉｎｇ）：这里指的是用二个控制器来驱动一个硬盘子系统。一个控制器发生故障，另一个控制器马上控制硬盘操作。此外，如果编写恰当的控制器软件，可实现不同的硬盘驱动器同时工作。　

容错（Ｆａｕｌｔ　Ｔｏｌｅｒａｎｔ）：具有容错功能的机器有抗故障的能力。例如ＲＡＩＤ　１镜像系统是容错的，镜像盘中的一个出故障，硬盘子系统仍能正常工作。　

主机控制器（Ｈｏｓｔ　Ａｄａｐｔｅｒ）：这里指的是使主机和外设进行数据交换的控制部件（如ＳＣＳＩ控制器）。　

热修复（Ｈｏｔ　Ｆｉｘ）：指用一个硬盘热备份来替换发生的故障的硬盘。要注意故障盘并不是真正地被物理替换了。用作热备份的盘被加载上故障盘原来的数据，然后系统恢复工作。　

热补（Ｈｏｔ　Ｐａｔｃｈ）：具有硬盘热备份，可随时替换故障盘的系统。　

热备份（Ｈｏｔ　Ｓｐａｒｅ）：与ＣＰＵ系统电连接的硬盘，它能替换下系统中的故障盘。与冷备份的区别是，冷备份盘平时与机器不相连接，硬盘故障时才换下故障盘。　

平均数据丢失时间（ＭＴＢＤＬ－Ｍｅａｎ　Ｔｉｍｅ　Ｂｅｔｗｅｅｎ　Ｄａｔａ　Ｌｏｓｓ）：发生数据丢失的事件间的平均时间。　

平均无故障工作时间（ＭＴＢＦ－Ｍｅａｎ　Ｔｉｍｅ　Ｂｅｔｗｅｅｎ　Ｆａｉｌｕｒｅ或ＭＴＩＦ）：设备平均无故障运行时间。　

廉价冗余磁盘阵列（ＲＡＩＤ－Ｒｅｄｕｎｄａｎｔ　Ａｒｒａｙ　ｏｆ　Ｉｎｅｘｐｅｎｓｉｖｅ　Ｄｒｉｖｅｓ）：一种将多个廉价硬盘组合成快速，有容错功能的硬盘子系统的技术。　

系统重建（Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ　ｏｒ　Ｒｅｂｕｉｌｄ）：一个硬盘发生故障后，从其它正确的硬盘数据和奇偶信息恢复故障盘数据的过程。

恢复时间（Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ　Ｔｉｍｅ）：为故障盘重建数据所需要的时间。　

单个大容量硬盘（ＳＬＥＤ－Ｓｉｎｇｅ　Ｅｘｐｅｎｓｉｖｅ　Ｄｒｉｖｅ）。　

传输速率（Ｔｒａｎｓｆｅｒ　Ｒａｔｅ）：指在不同条件下存取数据的速度。　

虚拟盘（　Ｖｉｒｔｕａｌ　Ｄｉｓｋ　）：　与虚拟存储器类似，　虚拟盘是一个概念盘，用户不必关心他的数据写在哪个物理盘上．　虚拟盘一般跨越几个物理盘，　但用户看到的只是一个盘．