私有云项目方案

1 项目背景 (2)

1.1 云平台架构拓扑 (2)

1.2 设计说明 (4)

2 与现有设备及系统对接方案质量保证 (15)

2.1 现有设备接入方案 (15)

2.2 原系统迁移方案 (15)

2.3 质量保证 (18)

1 项目背景

每年都在更新，涉及的基础硬件设备多而复杂。这些设备一个最主要的特点就是和应用系统紧紧耦合在一起，一旦硬件设备出现状况（包括硬件故障、设备挪用、常规维护、扩展升级、测试征用等），那势必需要非常多的管理工作去维护、迁移应用系统。硬件设备的问题，增加了应用系统的运行风险和管理难度。对于澳洋科技的信息系统来说，如何通过一种系统化的方法从整体上降低硬件设备的运行风险和管理难度就显得非常重要的，而降低硬件设备和应用系统之间的耦合程度，是实现这一目标的必经之路。而云计算中心的建设在很大程度上就是要解决设备更新给应用平台带来的巨大影响。云计算中心通过硬件设备和应用系统的松耦合，将业务系统对硬件设备的依赖程度降到最低。

澳洋科技信息系统是资源使用在一定程度上存在波峰波谷的周期性变化，在系统运行高峰时期，对计算的需求比较高。通过搭建虚拟化IaaS云平台，所有的计算和存储资源将成为一个资源池，而池中的资源将被自动地按需分配给各个应用系统。当需求增加时，资源将被弹性地分配给应用系统；当需求减少时，资源则会被平台回收。

一些业务系统由于高峰时的性能瓶颈或软件本身的稳定性等因素，无法保证所有业务的不间断运行。通过搭建虚拟化IaaS云平台，可以使业务系统得以不间断运行。利用基于IaaS平台的动态迁移技术，即使是业务系统重启或是服务器故障，仍可以保证业务系统不间断运行，而让使用者毫无察觉。

1.1 云平台架构拓扑

本次方案预计新增2台生产存储设备（两台存储分别放置在澳洋科技一期大楼和二期大楼，构建双活数据中心，保证业务数据的两端同步读写），在新建的二期大楼侧新增12台高性能企业级四路十核机架式服务器，2台二层汇聚交换机，通过虚拟化技术，构建澳洋科技系统的业务云平台，另外新增4台FC交换机、4台万兆三层交换机，分别部署在澳洋科技一期

和二期大楼的机房，通过4条双路由10GE光纤链路构建异地双活灾备中心；在二期大楼侧新增一台业务数据实时保护系统，构建两地三中心的数据保护机制。现有的存储后期规划搬迁至二期大楼机房作为生产数据冷备存储;数据中心建设完成后，生产数据中心在二期大楼机房侧，备用数据中心在澳洋科技一期机房侧。最终平台架构如下图:

?澳洋科技一期机房及二期机房之间使用四路万兆专线。

?为保证数据可靠性，在二期大楼机房侧放置数据保护系统和主用生产存储，在一

期大楼机房侧部署备用存储，两端光交换机做级联，两端存储通过存储的双活机制，

构建异地双活中心，实现存储的无缝故障切换。

?二级大楼侧平台使用机架式服务器、存储构建业务和应用软件的定制云环境，其

中16台两路机架式服务器作为高性能资源池，为性能要求高的业务应用提供高计算

能力。

?一期大楼侧利旧原有物理服务器通过虚拟化后组成容灾计算资源池，用于容灾时

切换业务系统。

?利用P2V技术，逐步的把现有的应用迁移到云中心进行管理和维护。

?一期二期机房互为主备，以二期大楼机房侧为主用生产中心，一期大楼侧为备用

生产中心。

?电信对整个生产环境提供7*24小时的环境和平台硬件设施监控，提供7*24小

时的服务热线。

1.2 设计说明

两地三中心数据备份保护

结合近年出现的大范围不可抗力灾害，以本地数据中心加异地数据中心及灾备中心的“两地三中心”的灾备模式也随之出现，这一方案兼具高可用性和灾难备份的能力。

本方案是指在建立两个可独立承担关键系统运行的数据中心，两个中心具备基本等同的业务处理能力并通过高速链路实时同步数据，日常情况下可同时分担业务及管理系统的运行，并可切换运行；灾难情况下可在基本不丢失数据的情况下进行灾备应急切换，保持业务连续运行。

异地灾备中心是指在异地建立一个备份的灾备中心，用于双中心的数据备份，当双中心出现自然灾害等原因而发生故障时，异地灾备中心可以用备份数据进行业务的恢复。

本次方案中在二期大楼侧机房内生产存储保留一套完整的应用数据；BCM数据保护系统保留一套完整的应用数据；在澳洋科技本地机房内也保留一套完整的应用数据。

当生产存储出现逻辑错误时，可以通过BCM数据保护系统快速恢复当前业务系统。

当出现灾难性事故导致两条链路全部中断或二期机房内设备停止服务时，可以利用一期机房的同步容灾数据快速在虚拟化平台上将全部应用重启，并在灾难恢复后将数据回传同步到生产环境。异地容灾系统的启用切换和恢复回切由电信提供全程服务，负责迁移过程的所有操作直至迁移成功，迁移过程不会严重影响澳洋科技的正常业务开展。

针对澳洋科技的实际需求，本方案采用BCM数据保护系统和ETERNUS SF Storage Cruiser套件，可简化磁盘存储系统的设置及ETERNUS DX存储环境的管理。它能操纵复杂的存储配置和设置，用户无需高级技能就能轻松实施存储环境。

BCM实时保护系统及本地中心灾难恢复

采用数据自动实时备份预案，BCM接入平台系统，实施数据安全防护，系统工作过程中，会连续捕获数据变化，实时跟踪、读写、保存文件修改信息，自动监控数据，只要数据发生改变，便实时、准确的备份到BCM实时数据保护系统。用户可以通过监控模块，了解“数据自动实时保护系统”的工作状态，掌握当前系统的数据实时读写情况、文件传送动态以及系统的安全运转。

BCM集软硬件和存储一体化设计，基于磁盘设计的单一芯片级控制器实现，全面整合操作系统、应用数据、数据库数据的备份和保护于一体设备，内建（Build-In）数据镜像副本、智能快照副本和持续写入保护技术，极大提高了数据保护和业务恢复的效率。通过BCM卓越的文件/数据库/操作系统的实时保护与瞬间恢复，支持数据库类型包含ORACLE、SQL、DB2、Sybase、MySQL；可随时测试、验证、演练的本地高效保护功能整合。最大限度地保护数据

的实时性、完整性和一致性。

BCM设备内建（Build-In）数据镜像副本、智能快照副本和持续写入保护技术。柏科数据BCM设备数据镜像可以在生产存储（含在线历史数据）系统发生逻辑错误时进行快速业务系统恢复，智能快照技术能够针对每个应用提供多达上千历史版本，快照恢复与数据量无关，无论多大的数据量提取也仅仅是几秒内的事情。可以让用户任意定义恢复时间点。

?ETERNUS SF Storage Cruiser确保数据灾难异地恢复

ETERNUS SF Storage Cruiser提供对整个存储环境，包括服务器和光纤通道交换机的统一管理，从而实现稳定的系统运行。ETERNUS SF Storage Cruiser还提供从配置到维护的存储系统声明周期管理功能。

?业务正常运行时

业务正常运行时，业务客户端通过业务专线将数据写入二期平台的生产存储，而一期机房侧的备份存储通过FC 交换机级联下的存储网络远程数据复制与生产存储的数据实现同步。

?二期机房平台生产存储故障时

当二期机房侧平台生产存储出现故障时，由Storage cluster Controller触发failover 功能，一期老机房侧的备份存储自动通过备用线路接管平台数据的承载，全程无须人工干预，完成故障切换，对用户几乎是无感知，不中断用户的业务正常运行。

处理流程如下：

?二期机房侧环境整体故障

当二期机房侧整体故障时，本方案采用Storage cluster Controller和vSphere HA功能来实现故障自动切换，通过生产存储的数据（主要是虚拟机的VMX和VMDK文件）在一

期机房侧的资源池启动相应的业务服务器，并且这些是自动切换无需人工干预。

服务器设计

本次在计算资源池是部署在新建设的二期机房，主要是做服务器的虚拟化，本次配置DELL/富士通/联想（与客户商定）16台服务器，单台配置：4个英特尔至强E7-4820v3 10C/20T 1.90GHz 24 MB CPU，512GB内存，2个300GB 10k SAS 2.5"硬盘，4个千兆以太网口，2块单口8Gb HBA卡，1块RAID Ctrl SAS 5/6 512M控制卡，DVD-RW，冗余电源，上架套件。

在本方案中我们使用的Vmwaer公司的ESXi Server来作为服务器虚拟化的主要底层的支撑系统，总共在四台高性能的服务器上安装。我们的服务器上总共有六个网卡可以使用。其中的四个网卡分别进行两两网络聚合，用做对外服务的网卡，联接两个不同的交换机。而服务器上的另外两个网卡，一个用于做心跳网卡。一个用于做Vmware的核心交换网卡。VC Server用于管理所有的ESXi Server

角色分配：

ESXi服务器，在这次的架构中在电信侧生产环境中我们使用4台的服务器用于支撑我们的业务系统的正常运行，当其中任意一台出现故障，上面运行的虚拟机都可以自动切换到另一台的ESXi上面，保证业务系统在几分钟之内就可以恢复正常常的运行。

VC 服务器，在这次的架构中我们设置一台集中管理服务器（以虚拟机的形式），负责管理所有的ESXi与虚拟机。

监控服务器，在本次架构中我们设置一台集中监控服务器（以虚拟机的形式），负责监控平台内计算节点、存储节点和网络设备的运行情况，确保平台的正常运行。

虚拟网络设计

vSphere的企业增强版的虚拟交换机将会是分布式交换机，我们可以便用分布式交换机

的配置进行统一管理配置，考虑到各个业务系统对于网络的的要求比较高，在方案中我们用了四个网卡进行了聚合使用，能充分保证业务系统的网络带宽的需求，另外考虑到各个系统的独立性，我们会使用Vmware的虚拟交换机，把各个虚拟的服务器进行罗辑隔离，而Vmware 的虚拟交换机是支持802.11Q的VLan技术，只需要把Vlan号设置在虚拟的交换机内，所有通过这个交换机的数据包都会自动在IP包头附加上Vlan号，从而实现Vlan的技术支持。

存储设计

本地方案中包含两台异地双活存储设备，采用双控制器的高性能存储设备。

其中主用生产存储作为生产放置于二期机房，用于存放生产数据及历史在线数据，配置为81.1TB裸盘容量（含热备盘），48个SAS接口类型/900GB/10000rpm 2.5"SAS硬盘，12个SAS接口类型/4TB/7200rpm 3.5" NL-SAS硬盘，2个控制器，16GB高速SAN缓存，1*8个FC/16Gbps速率前端接口，含远程复制，异步复制和同步复制软件，含高级管理软件，含Storage Cluster软件，含自动精简配置软件。

同时在二期大楼机房侧，利旧澳洋科技原有存储，通过FC-SAN方式接入云平台，通过认为方式，以冷备的方式，备份业务系统中PASC历史数据和近线数据。

备用生产存储放置于澳洋科技本地，用于存放热备数据，通过storage cluster软件实现实时主用生产存储的数据同步及故障切换点，配置为117.6TB裸盘容量（含热备盘），24个SAS接口类型/900GB/10000rpm 2.5"SAS硬盘，24个SAS接口类型/4TB/7200rpm 3.5" NL-SAS硬盘，2个控制器，16 GB高速SAN缓存，1*4个FC/8Gbps速率前端接口，含远程复制，异步复制和同步复制软件，含高级管理软件，含Storage Cluster软件，含自动精简配置软件。

FC-SAN存储用光纤连到光纤交换机。VMware ESX可以支持管理多通道的负载均衡与失效转移，不需要安装额外的多通道管理软件，为以后的升级带来的方便。另VMware ESX 使用的是VMFS磁盘格式可以支持新型分布式服务虚拟机完全封装在虚拟磁盘文件中，这些文件集中存储在共享的SAN存储中。集中存储方式在企业环境中更为常见，这样，其他ESXi 也可以使用共享的SAN来集中访问各个虚拟机。这种配置的功能要强大得多，因为它允许资源池中包含的多个ESX 并行访问若干相同的文件来引导和运行虚拟机，并能够对虚拟机存储进行有效的虚拟化。

虚拟化平台管理设计

本次澳洋科技云计算中心，采用的是服务器弹性云平台架构。统一云平台系统软件基于虚拟化管理软件，由虚拟化管理软件提供，云管理平台包括以下的管理功能。

●资源池管理：所有的计算资源和存储资源可以根据需要组织成不同的资源池，用以提

供给不同配置的资源给具体的客户或者是应用。

●虚拟机模板管理：针对基础架构及服务（IaaS），提供基本服务构件的管理能力。

●自动化引擎：实现对服务器、存储、网络、虚拟机镜像的配置，进行配置过程的标准

化和自动化，提升管理效率。

●服务器资源池管理：

?计算资源池：基于服务器虚拟化技术，集成搭建统一资源管理；为生产系统提供非

关键业务和测试业务系统提供资源配置；从而对澳洋科技业务IT系统实现基础架

构即服务云计算服务能力。

?存储资源池：规划统一的共享存储，为整个云计算环境中运行的系统提供动态迁移

和部署的支撑。考虑到未来的扩容，可以分步考虑实现存储虚拟化，方便未来的存

储扩容和存储数据的迁移。

?网络资源池：考虑到高可用性设计，实现网络资源虚拟化，统一动态调配。

整体方案提供异构IT资源和设备的开放性，随着业务的不断增长，逐步实现其它硬件的资源扩展。

统一监控设计

统一监控是云计算管理平台中重要的功能，统一监控系统主要能够实现对物理设备、虚拟主机以及应用系统的监控，对云计算中心的所有计算资源提供统一的监控机制，从管理角度看，

所有的计算资源之间是没有区别的。

在本次方案中，使用zabbix监控软件，提供7x24小时全程监控服务，确保平台稳定运行。

zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的解决方案。zabbix能监视各种网络参数，保证服务器系统的安全运营；并提供通知机制以让系统管理员快速定位/解决存在的各种问题。

zabbix由2部分构成，zabbix server与可选组件zabbix agent。

zabbix server可以通过SNMP，zabbix agent，ping，端口监视等方法提供对远程服务器/网络状态的监视，数据收集等功能，它可以运行在Linux, Solaris, HP-UX, AIX, Free BSD, Open BSD, OS X等平台之上。

zabbix agent需要安装在被监视的目标服务器上，它主要完成对硬件信息或与操作系统有关的内存，CPU等信息的收集。

zabbix server可以单独监视远程服务器的服务状态；同时也可以与zabbix agent配合，可以轮询zabbix agent主动接收监视数据（trapping方式），同时还可被动接收zabbix agent 发送的数据（trapping方式）。

另外zabbix server还支持SNMP (v1,v2)，可以与SNMP软件(例如：net-snmp)等配合使

用。

具体监控内容如下：

?监控资源主机的主要参数，如CPU、内存、磁盘、网络、整体性能；交换空间的利用率、虚拟内存的利用率、消息队列的情况等。

?监控特定的进程，监控任意关键进程的运行情况和状态变化情况，利用该功能可跟踪操作系统、数据库及用户应用系统的进程，并这些重要进程因意外原因终止时，可根据需要自动重启，并将报警信息写入事件日志。

?通过SNMP协议监控平台内所有网络、物理服务器、存储及其它管理节点，做到故障预判，先于客户知道问题所在，快速对应。

?支持MIB库导入，完全监控物理服务器所有硬件状态，包含电源、风扇及其他。

?支持用户定义相关参数的告警阀值，便于用户针对不同的安全级别定制不同的告警阀值，确保平台的正常运行。

2 与现有设备及系统对接方案质量保证

2.1 现有设备接入方案

?现有服务器接入方案：

待系统迁移完成后，一期机房侧剩余若干台物理服务器，本方案将其虚拟化，并纳入到云平台的统一管理，作为灾备站点的虚拟化资源池。

服务器利旧的好处：

?用于灾备资源池，便于二期机房侧发生严重故障时，可以快速的在一期老机房侧恢复业务系统，保持业务的连续性；

?利用现有资源，使澳洋科技的投资利用最大化。

2.2 原系统迁移方案

本次方案通过P2V将原有物理服务器中运行的业务系统迁移至云平台，以保证业务的连续并节省硬件资源，同时便于集中化管理。

?迁移虚机处理

●迁移完成后，虚机默认处于关闭状态

●虚机默认保留源系统的主机名和SID，需要更改以避免冲突

●虚机自动生成新网卡替换物理机网卡，并启用dhcp避免地址冲突

●需要管理员手动将原有IP设置给新网卡，在此之前，务必让源服务器离线，避免地

址冲突

●完成上述操作后可启用虚机接管业务

?迁移工具介绍

VMware vSphere基础架构搭建好后，如何把现有跑在物理机上的应用迁移到虚拟机上呢？VMware为此提供了专用工具VMware vCenter Converter，此工具可以通过两种方式实现P2V（物理机迁移到虚拟机），一是hotclone热克隆（操作系统启动的情况下），另一种是coldclone冷克隆（操作系统未启动的情况下）；这两种方法也有局限之处，在实际的迁移过程中，并非100%适用，对于上述工具无法完成的，可以手动重新部署。

VMware vCenter Converter Standalone组件介绍

转换物理机时，Converter Standalone 会使用克隆和系统重新配置步骤创建和配置目标虚拟机，以便目标虚拟机能够在vCenter Server 环境中正常工作。由于该迁移过程对源而言为无损操作，因此，转换完成后可继续使用原始源计算机。

克隆是为目标虚拟机复制源物理磁盘或卷的过程。克隆涉及复制源计算机硬盘上的数据，并将该数据传输至目标虚拟磁盘。目标虚拟磁盘可能有不同的几何形状、大小、文件布局及其他特性，因此，目标虚拟磁盘可能不是源磁盘的精确副本。系统重新配置可调整迁移的操作系统，以使其能够在虚拟硬件上正常运行。

如果计划在源物理机所在的同一网络上运行导入的虚拟机，则必须修改其中一台计算机的网络名称和IP 地址，使物理机和虚拟机能够共存。此外，您还必须确保

Windows 源计算机和目标虚拟机具有不同的计算机名称。

不能在物理机之间移动原始设备制造商(OEM) 许可证。在您从OEM 购买许可证后，该许可证会附加到服务器，而且不能重新分配。只能将零售和批量许可证重新分配给新物理服务器。如果要迁移OEM Windows映像，则必须拥有Windows Server Enterprise 或Datacenter Edition 许可证才能运行多个虚拟机。

?迁移方法介绍

?热克隆简介:

热克隆也叫做实时克隆或联机克隆，要求在源计算机运行其操作系统的过程中转换该源计算机。通过热克隆，可以在不关闭计算机的情况下克隆计算机。由于在转换期间进程继续在源计算机上运行，因此生成的虚拟机不是源计算机的精确副本。为了避免数据丢失或不一致，导致目标虚机无法启动，必须停止所有对外服务，包括数据库和应用程序等。

?热克隆准备条件:

源计算机和虚拟化服务器网络可达，克隆过程中网络不能中断；源计算机C盘至少有300M的剩余空间可供安装克隆软件；关闭数据库和对外服务，如IIS、ftp、邮件等；

?冷克隆简介:

冷克隆也称为脱机克隆，用于在源计算机没有运行其操作系统时克隆此源计算机。在冷克隆计算机时，通过其上具有WinPE和vCenter Converter 的CD盘重新引导源计算机。通过冷克隆，您可以创建最一致的源计算机副本，因为在转换期间源计算机上不会发生任何更改。冷克隆在源计算机上不留痕迹，但要求现场可以接触到源计算机。

?冷克隆准备条件:

源计算机和虚拟化服务器网络可达，克隆过程中网络不能中断，准备好源服务器的RAID卡驱动和网卡驱动，打包到引导盘中，不能有任何大于2T 的卷。

2.3 质量保证

虚拟迁移的准备可能要比迁移本身要花费的时间还要长。但是考虑到一些系统有需要经历重新执行的风险，这是值得的。下面一些好的预先迁移计划任务使实际的迁移更加流畅：

?确定虚拟化候选者的资格。在你的环境中许多的因素将成为这个问题的参数。清理文件系统，如果有不需要的文件和数据保存在要迁移的系统中，就需要清除。用转

换工具时，你的驱动器里的所有的内容都被迁移到虚拟环境中，所以需要确保没有

空间的浪费。

?在开始前确定好停机时间。当你开始从事大规模的P2V迁移，你必须确保能够给业务有一定的正当的停机时间来使其成功的完成迁移。在理想的情况下，停机时间就

是更改DNS（如果需要）的时间以及在旧的物理主机上关闭迁移的系统和当完成所有的准备之后新的虚拟系统的开机时间。

?确定资源。这也许是在P2V的迁移过程中最重要的决定时刻。你肯定不想开头就花光系统资源，你肯定也不会保存太多的客户OS不用的资源，这将浪费昂贵的主机

硬件。

?仔细检查存储和网络状态。存储和网络在虚拟化环境中一般是最大的障碍。所以，确保将要虚拟化的所有的机器网络的正确连接和足够的存储。

?正式迁移之前进行迁移测试。P2V或者V2V的迁移的概念一般使系统的整个功能保持完整。然而，对任何被迁移的系统，在迁移后，在其发挥其正常的角色前，应当

进行一系列的检查。