宝德HPC高性能计算服务器集群系统简介

HPC高性能计算服务器集群系统是高性能计算和高可用技术有机结合的性能强大、高可用的集群系统。在实际应用中，许多科学研究和商业企业的计算问题都可以通过HPC系统来解决。HPC可以在下列领域能够帮助开发和研究人员进行建模和模拟，同时，以最快的速度计算出模拟的结果，为下一步开发和最终结构的确定提供及时可靠的依据：?

?天气预报气象

?制药企业的药理分析

?科研人员的大型科学计算问题

?石油勘探中对石油储量的分析

?航空航天企业的设计和模拟

?化工企业中对分子结构的分析计算

?制造业中的CAD/CAM系统和模拟试验分析

?银行和金融业对经济情况的分析

生物/生命科学中生物分子研究和基因工程计算

宝德HPC系统由高性能并行计算应用系统，集群控制节点、通信库以及管理服务器，数据库存储系统，各节点操作系统，节点通信系统，各计算节点，以及系统运行环境等组成。

★高性能计算应用系统各种并行计算的应用程序，针对不同的应用对象和问题而设计的软件系统。

★集群控制节点、通信库及管理服务器集群控制节点是HPC的核心设备，担任着运行主控程序和作业分发的任务。其上的集群管理软件是整个高性能计算系统的管理者。HPC控制节点通过集群控制、管理及通讯库将整个系统紧密联系在一起。同时，还要负责初始化集群节点、在所需数量的节点上安装应用程序、并监视集群节点和互连的当前运行状况。

★数据库存储系统数据库存储系统是高性能计算的后端存储系统，与主控节点相连，高性能计算的结果通过主控节点统一送到该系统进行集中存储。该系统可以一个RAID存储阵列柜，也可以是一个存储网络，如SAN等。

★节点操作系统因为Linux操作系统具有开放源码、容易整合和再开发的特点，所以在HPC Cluster中被普遍采纳，占到操作系统的80%以上的比例。而Windows NT受其自身的封闭环境阻碍，Linux 有大量的集群系统可供选择，适合于不同的用途和需要，保证系统可适应最新的工具，有较高的可用性。

★节点通信系统：一个HPC系统的性能一方面由计算节点的性能决定，另一方面取决于节点通信系统。设计节点通信系统主要考虑两个因素：延时和带宽。带宽是通信时每秒钟可以传送的最大数据量；延时是指从源节点开始发送数据到目的节点开始接收数据所需要的时间。

★ 计算节点计算节点是高性能计算HPC系统中的单个主机系统，是构成整个HPC系统最重要的的基础部分，计算节点的计算性能直接影响着整个HPC系统的计算性能。为此，宝德推荐使用最新的双核安腾处理平台来构建计算节点。全新的双核安腾II处理器（代码名称“Montecito”）采用更高带宽的前端总线能够以每秒 10.6 GB 的速度在处理器和其它系统部件之间传输数据。与之相比，现有的 400 MHz 前端总线每秒只能传输 6.4 GB 的数据。在极短时间内传输更多数据，这对完成科学、石油和天然气、以及政府等行业的计算密集性应用极为关键。采用 Montecito 的平台将提供相当于目前英特尔安腾处理器2倍的性能、3倍的系统带宽和 2.5 倍以上的模上高速缓存。在提升性能的同时，借助于全新的电源管理技术， Montecito 预计可实现降幅高于 20％的更低功耗。此外， Montecito 还将采用超线程（HT）技术，带来相当于现有产品4倍的线程能力。

★ 系统的环境从散热、电源、空间布局等方面，通常推荐选用宝德IA机架式计算节点解决方案。优点：省电、省空间、方便管理。宝德高性能计算HPC系统是一个性能强大、高可用、高性价比、可按需定制、系统组成灵活、扩展能力强大的以IA 架构服务器为计算节点的大型高效并行计算系统，是宝德IA架构服务器进入大型并行计算系统领域的一项重大技术突破。

高性能计算集群(HPC CLUSTER)

高性能计算集群(HPC CLUSTER) 1.1什么是高性能计算集群? 简单的说，高性能计算(High-Performance Computing)是计算机科学的一个分支，它致力于开发超级计算机，研究并行算法和开发相关软件。高性能集群主要用于处理复杂的计算问题，应用在需要大规模科学计算的环境中，如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。高性能集群上运行的应用程序一般使用并行算法，把一个大的普通问题根据一定的规则分为许多小的子问题，在集群内的不同节点上进行计算，而这些小问题的处理结果，经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的，从而可以缩短问题的处理时间。高性能集群在计算过程中，各节点是协同工作的，它们分别处理大问题的一部分，并在处理中根据需要进行数据交换，各节点的处理结果都是最终结果的一部分。高性能集群的处理能力与集群的规模成正比，是集群内各节点处理能力之和，但这种集群一般没有高可用性。 1.2 高性能计算分类高性能计算的分类方法很多。这里从并行任务间的关系角度来对高性能计算分类。 1.2.1 高吞吐计算(High-throughput Computing) 有一类高性能计算，可以把它分成若干可以并行的子任务，而且各个子任务彼此间没有什么关联。因为这种类型应用的一个共同特征是在海量数据上搜索某些特定模式，所以把这类计算称为高吞吐计算。所谓的Internet计算都属于这一类。按照Flynn的分类，高吞吐计算属于SIMD（Single Instruction/Multiple Data,单指令流-多数据流）的范畴。 1.2.2 分布计算(Distributed Computing) 另一类计算刚好和高吞吐计算相反，它们虽然可以给分成若干并行的子任务，但是子任务间联系很紧密，需要大量的数据交换。按照Flynn的分类，分布式的高性能计算属于MIMD （Multiple Instruction/Multiple Data，多指令流-多数据流）的范畴。 1.3高性能计算集群系统的特点可以采用现成的通用硬件设备或特殊应用的硬件设备，研制周期短；可实现单一系统映像，即操作控制、IP登录点、文件结构、存储空间、I/O空间、作业管理系统等等的单一化；高性能（因为CPU处理能力与磁盘均衡分布，用高速网络连接后具有并行吞吐能力）；高可用性，本身互为冗余节点，能够为用户提供不间断的服务，由于系统中包括了多个结点，当一个结点出现故障的时候，整个系统仍然能够继续为用户提供服务；高可扩展性，在集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器，从而能够最大限度地扩展系统以满足不断增长的应用的需要；安全性，天然的防火墙；资源可充分利用，集群系统的每个结点都是相对独立的机器，当这些机器不提供服务或者不需要使用的时候，仍然能够被充分利用。而大型主机上更新下来的配件就难以被重新利用了。具有极高的性能价格比，和传统的大型主机相比，具有很大的价格优势； 1.4 Linux高性能集群系统当论及Linux高性能集群时，许多人的第一反映就是Beowulf。起初，Beowulf只是一个著名的科学计算集群系统。以后的很多集群都采用Beowulf类似的架构，所以，实际上，现在Beowulf已经成为一类广为接受的高性能集群的类型。尽管名称各异，很多集群系统都是Beowulf集群的衍生物。当然也存在有别于Beowulf的集群系统，COW和Mosix就是另两类著名的集群系统。 1.4.1 Beowulf集群简单的说，Beowulf是一种能够将多台计算机用于并行计算的体系结构。通常Beowulf系统由通过以太网或其他网络连接的多个计算节点和管理节点构成。管理节点控制整个集群系统，同时为计算节点提供文件服务和对外的网络连接。它使用的是常见的硬件设备，象普通PC、以太网卡和集线器。它很少使用特别定制的硬件和特殊的设备。Beowulf集群的软件也是随处可见的，象Linux、PVM和MPI。 1.4.2 COW集群象Beowulf一样，COW（Cluster Of Workstation）也是由最常见的硬件设备和软件系统搭建而成。通常也是由一个控制节点和多个计算节点构成。

分布式MySQL数据库集群在线监测系统设计与实现

` 硕士学位论文（工程硕士）分布式MySQL数据库集群在线监测系统设计与实现 DESIGN AND IMPLEMENTATION OF DISTRIBUTED MySQL DATABASE CLUSTER ONLINE MONITORING SYSTEM 黄旭哈尔滨工业大学 2012年6月

国内图书分类号：TP311 学校代码：10213 国际图书分类号：621.3 密级：公开工程硕士学位论文分布式MySQL数据库集群在线监测系统设计与实现硕士研究生：黄旭导师：范国祥高级讲师副导师：赵威高级工程师申请学位：工程硕士学科：软件工程所在单位：软件学院答辩日期：2012年6月授予学位单位：哈尔滨工业大学

Classified Index: TP311 U.D.C.:621.3 Dissertation for the Master‘s Degree in Engineering DESIGN AND IMPLEMENTATION OF DISTRIBUTED MySQL DATABASE CLUSTER ONLINE MONITORING SYSTEM Candidate: Supervisor: Associate Supervisor: Academic Degree Applied for: Speciality: Affiliation： Date of Defence: Degree-Conferring-Institution: Huang Xu Senior Lecturer Fan GuoXiang Senior Engineer Zhao Wei Master of Engineering Software Engineering School of Software June, 2012 Harbin Institute of Technology

高可用性集群系统的实现

高可用性集群系统的实现《Linux企业应用案例精解》第8章主要介绍一下虚拟化技术应用。本节为大家介绍高可用性集群系统的实现。 8.3.5 高可用性集群系统的实现（1） VMware Infrastructure 的体系结构和典型配置资源动态分配和高可用性的实现为构建高可用性集群系统提供了有力的保障，采用VMwae构建铁路企业高可用性集群，不需要为系统中的每台服务器分别添置备用服务器，就可以有效地降低系统成本，在基于VMware的我企业高可用性集群中，备用服务器安装了VMware ESX Server，与数据库服务器、Web服务器、OA服务器和文件服务器等构成高可用性集群，同时采用数据库备份服务器实现差额计划备份。使用VMware提供的虚拟基础架构解决方案，服务器不再需要随着业务增加而添加，整个IT基础架构能得到有效控制并可充分发挥效能。只有当整体资源出现不足的时候，才需要增加服务器。而且对系统资源的

添加也非常简单，不再需要做繁琐的硬件维护以及业务迁移，只需要简单地将新服务器安装VMWARE? INFRASTRUCTURE 3软件，并添加到已有的VMWARE? INFRASTRUCTURE 3架构中即可，新增资源将自动分配到各个最需要的业务环境中。在HA和DRS功能的共同支撑下，虚拟机的稳定、不间断运行得到了保证，而且，在没有搭建Cluster环境的情况下，迁移、升级依旧能不中断服务。哪怕是硬件升级、添加，正常停机维护等情况，也能够保证所有的业务正常运行，客户端访问服务器不产生业务中断现象。新的服务器虚拟化架构中另一个重点是VMware HA 的部署，它是整个服务器系统安全、可靠运行的一道防线。传统的热备机方式最大的问题就是容易造成资源的大量闲置；在正常运行状态下，所有备机服务器都处于闲置状态，不仅造成计算资源的空耗，而且还浪费大量的电力和散热资源，投资回报率非常低。如何应对Linux系统软件包的依赖性问题不管是初步跨入Linux殿堂的新手还是，具有多年经验的专家，在安装或编译软件包的过程中或多或少的都会遇到包的依赖问题从而导致安装过程无法继续，比如管理员在安装php软件包需要libgd.so文件，而这个文件属于gb软件包。但是在安装gb软件包时，可能这个软件包跟其他软件包又具有依赖关系，又需要安装其他软件包才行。这时有的管理员便失去耐心。在遇到这种Linux软件包依赖关系问题，该如何解决呢?在谈这个具体的措施之前，先跟大家聊聊Linux系统里的软件爱你依赖性问题。我们把处理rpm依赖性故障的策略可以分成两类解决依赖性故障的自动方法和手工方法。但当安装不属于发行一部分的软件包时自动方法是不可用的。在描述如何手工解决依赖性故障后，将简要描述如何使用自动方法之一（YUM），但首先需要了解它们是什么及rpm如何强制实施它们。一、什么是依赖性程序依赖于程序代码的共享库，以便它们可以发出系统调用将输出发送到设备或打开文件等（共享库存在于许多方面，而不只局限于系统调用）。没有共享库，每次程序员开发一个新的程序，每个程序员都需要从头开始重写这些基本的系统操作。当编译程序时，程序员将他的代码链接到这些库。如果链接是静态的，编译后的共享库对象代码就添加到程序执行文件中；如果是动态的，编译后的共享库对象代码只在运行时需要它时由程序员加载。动态可执行文件依赖于正确的共享库或共享对象来进行操作。RPM依赖性尝试在安装时强制实施动态可执行文件的共享对象需求，以便在以后--当程序运行时--不会有与动态链接过程有关的任何问题。

高性能计算集群项目采购需求

高性能计算集群项目采购需求以下所有指标均为本项目所需设备的最小要求指标，供应商提供的产品应至少大于或等于所提出的指标。系统整体为“交钥匙”工程，厂商需确保应标方案的完备性。投标商在投标方案中须明确项目总价和设备分项报价。数量大于“1”的同类设备，如刀片计算节点，须明确每节点单价。硬件集成度本项目是我校校级高算平台的组成部分，供应商提供的硬件及配件要求必须与现有相关硬件设备配套。相关系统集成工作由供应商负责完成。刀片机箱供应商根据系统结构和刀片节点数量配置，要求电源模块满配，并提供足够的冗余。配置管理模块，支持基于网络的远程管理。配置交换模块，对外提供4个千兆以太网接口，2个外部万兆上行端口，配置相应数量的56Gb InfiniBand接口刀片计算节点双路通用刀片计算节点60个，单节点配置2个CPU，Intel Xeon E5-2690v4（2.6GHz/14c）；不少于8个内存插槽，内存64GB，主频≥2400；硬盘裸容量不小于200GB，提供企业级SAS或SSD 硬盘；每节点配置≥2个千兆以太网接口，1个56Gb InfiniBand 接口；满配冗余电源及风扇。刀片计算节点（大内存）双路通用刀片计算节点5个，单节点配置2个CPU，Intel Xeon E5-2690v4；不少于8个内存插槽，内存128GB，主频≥2400；硬盘裸容量不小于200GB，提供企业级SAS或SSD硬盘；每节点配置≥2个千兆以太网接口，1个56Gb InfiniBand接口；满配冗余电源及风扇。 GPU节点2个双路机架GPU节点；每个节点2个Intel Xeon E5-2667 v4每节点2块NVIDIA Tesla K80GPU加速卡；采用DDR4 2400MHz ECC内存，每节点内存16GB*8=128GB；每节点SSD 或SAS硬盘≥300GB；每节点配置≥2个千兆以太网接口，1个56Gb/s InfiniBand接口；满配冗余电源及风扇。数据存储节点机架式服务器2台，单台配置2颗Intel Xeon E5-2600v4系列CPU；配置32GB内存，最大支持192GB；配置300GB 2.5" 10Krpm

高可用性集群解决方案设计HA

1.业务连续 1.1.共享存储集群业务系统运营时，服务器、网络、应用等故障将导致业务系统无常对外提供业务，造成业务中断，将会给企业带来无法估量的损失。针对业务系统面临的运营风险，Rose提供了基于共享存储的高可用解决方案，当服务器、网络、应用发生故障时，Rose可以自动快速将业务系统切换到集群备机运行，保证整个业务系统的对外正常服务，为业务系统提供7x24连续运营的强大保障。 1.1.1.适用场景基于共享磁盘阵列的高可用集群，以保障业务系统连续运营硬件结构：2台主机、1台磁盘阵列

主机备机心跳磁盘阵列局域网 1.1. 2.案例分析某证券公司案例客户需求分析某证券公司在全国100多个城市和地区共设有40多个分公司、100多个营业部。经营围涵盖：证券经纪，证券投资咨询，与证券交易、证券投资活动有关的财务顾问，证券承销与保荐，证券自营，证券资产管理，融资融券，证券投资基金代销，金融产品代销，为期货公司提供中间介绍业务，证券投资基金托管，股票期权做市。该证券公司的系统承担着企业的部沟通、关键信息的传达等重要角色，随着企业的业务发展，系统的压力越来越重。由于服务器为单机运行，如果发生意外宕机，将会给企业的日常工作带来不便，甚至

给企业带来重大损失。因此，急需对服务器实现高可用保护，保障服务器的7×24小时连续运营。解决方案经过实际的需求调研，结合客户实际应用环境，推荐采用共享存储的热备集群方案。部署热备集群前的单机环境：业务系统，后台数据库为MySQL，操作系统为RedHat6，数据存储于磁盘阵列。在单机单柜的基础上，增加1台备用主机，即可构建基于共享存储的热备集群。增加1台物理服务器作为服务器的备机，并在备机部署系统，通过Rose共享存储热备集群产品，实现对应用的高可用保护。如主机上运行的系统出现异常故障导致宕机，比如应用服务异常、硬件设备故障，Rose将实时监测该故障，并自动将系统切换至备用主机，以保障系统的连续运营。

双机热备、集群及高可用性入门

什么是双机热备？双机热备这一概念包括了广义与狭义两种意义。从广义上讲，就是对于重要的服务，使用两台服务器，互相备份，共同执行同一服务。当一台服务器出现故障时，可以由另一台服务器承担服务任务，从而在不需要人工干预的情况下，自动保证系统能持续提供服务。(相关文章：为什么需要双机热备？) 双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题。但在实际应用中，可能会出现多台服务器的情况，即服务器集群。(相关文章：双机软件与集群软件的异同) 双机热备一般情况下需要有共享的存储设备。但某些情况下也可以使用两台独立的服务器。(相关文章：双机热备的实现模式) 实现双机热备，需要通过专业的集群软件或双机软件。(相关文章：双机与集群软件的选择) 从狭义上讲，双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写，或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时，另一台备份服务器会通过软件诊测（一般是通过心跳诊断）将standby机器激活，保证应用在短时间内完全恢复正常使用。(相关文章：双机热备、双机互备与双机双工的区别) 为什么要做双机热备？双机热备针对的是服务器的故障。服务器的故障可能由各种原因引起，如设备故障、操作系统故障、软件系统故障等等。一般地讲，在技术人员在现场的情况下，恢复服务器正常可能需要１０分钟、几小时甚至几天。从实际经验上看，除非是简单地重启服务器（可能隐患仍然存在），否则往往需要几个小时以上。而如果技术人员不在现场，则恢复服务的时间就更长了。而对于一些重要系统而言，用户是很难忍受这样长时间的服务中断的。因此，就需要通过双机热备，来避免长时间的服务中断，保证系统长期、可靠的服务。决定是否使用双机热备，正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度，以此决定是否使用双机热备。即，你的用户能容忍多长时间恢复服务，如果服务不能恢复会造成多大的影响。在考虑双机热备时，需要注意，一般意义上的双机热备都会有一个切换过程，这个切换过程可能是一分钟左右。在切换过程中，服务是有可能短时间中断的。

高性能计算集群(PC Cluster)用户指南

高性能计算集群（PC Cluster）用户指南大气科学系应越第二版2008-12 目录 -认识cluster -使用cluster -linux常用命令 -软件 -文件传输第一章：认识cluster 1.什么是cluster系统 cluster一般由一台主机（master）和多台节点机（node）构成，是一种松散耦合的计算节点集合。为用户提供网络服务或应用程序的单一客户视图，同时提供接近容错机的故障恢复能力。通常cluster的每台机器通过相应的硬件及软件互连，每个群集节点都是运行其自己进程的独立服务器。这些进程可以彼此通信，对网络客户机来说就像是形成了一个单一系统，协同起来向用户提供应用程序、系统资源和数据。cluster概念的提出在70年代主要是为了进行一些大运算量的科学计算。随着网络的发展，之后的cluster系统还被用作网络服务器，发挥其故障恢复和均衡负载的能力。使用PC机构建cluster的好处在于开发成本低，而且由于每台节点机都是普通的PC机，在某一台机器发生故障的时候，可以方便的进行维护，而不影响整个系统的运行。大气科学系的cluster系统，由16台64位的PC机组成。其中一台主机（master），15台节点机（node01～node15）。这16台机器每台有两个4核的CPU，也就是说每个节点上可以同时提供8个CPU。操作系统使用的是CentOS的Linux发行版。图1为大气科学系cluster目前的结构。其中console 和c0101～c0107是大气系早期的cluster系统，节点安装的是RedHat的Linux发行版，precluster曾经作为门户机，目前已经更新为CentOS的操作系统。登录master的IP地址为162.105.245.3，这个地址由于物理大楼的IP变动比较频繁，所以可能会时不时改变，而precluster的IP地址162.105.245.238则比较稳定。这两个地址目前都可以从校外访问。 cluster的应用主要集中在并行计算上。虽然单个节点的单CPU运算效率比普通的笔记本或是台式机都高很多，但是cluster当初被设计出来就是为了进行多CPU协同运算的，而不是仅仅为了提高单CPU的运算效率。所以我们鼓励用户在cluster上进行并行计算，而把一些单CPU也能解决的工作

数据库负载均衡解决方案

双节点数据库负载均衡解决方案问题的提出？在SQL Server数据库平台上，企业的数据库系统存在的形式主要有单机模式和集群模式（为了保证数据库的可用性或实现备份）如：失败转移集群（MSCS）、镜像（Mirror）、第三方的高可用（HA）集群或备份软件等。伴随着企业的发展，企业的数据量和访问量也会迅猛增加，此时数据库就会面临很大的负载和压力，意味着数据库会成为整个信息系统的瓶颈。这些“集群”技术能解决这类问题吗？SQL Server数据库上传统的集群技术 Microsoft Cluster Server(MSCS) 相对于单点来说Microsoft Cluster Server(MSCS)是一个可以提升可用性的技术，属于高可用集群，Microsoft称之为失败转移集群。 MSCS 从硬件连接上看，很像Oracle的RAC，两个节点，通过网络连接，共享磁盘；事实上SQL Server 数据库只运行在一个节点上，当出现故障时，另一个节点只是作为这个节点的备份；因为始终只有一个节点在运行，在性能上也得不到提升,系统也就不具备扩展的能力。当现有的服务器不能满足应用的负载时只能更换更高配置的服务器。 Mirror 镜像是SQL Server 2005中的一个主要特点，目的是为了提高可用性，和MSCS相比，用户实现数据库的高可用更容易了，不需要共享磁盘柜，也不受地域的限制。共设了三个服务器，第一是工作数据库（Principal Datebase），第二个是镜像数据库（Mirror），第三个是监视服务器（Witness Server，在可用性方面有了一些保证，但仍然是单服务器工作；在扩展和性能的提升上依旧没有什么帮助。

计算机集群技术的解释

【赛迪网独家特稿】集群技术是使用特定的连接方式，将相对于超级计算机便宜许多的计算机设备结合起来，提供与超级计算机性能相当的并行处理技术。早在七十年代就有人提出可以使用这种集群技术完成并行处理，但是由于受到当时网络交换技术的限制，集群系统在性能上与其他并行处理系统相距甚远，直到网络技术逐渐成熟的今天，它才具备了与超级计算机相匹敌的能力。什么是集群集群（Cluster）技术是指一组相互独立的计算机，利用高速通信网络组成一个计算机系统，每个群集节点（即集群中的每台计算机）都是运行其自己进程的一个独立服务器。这些进程可以彼此通信，对网络客户机来说就像是形成了一个单一系统，协同起来向用户提供应用程序、系统资源和数据，并以单一系统的模式加以管理。一个客户端（Client）与集群相互作用时，集群像是一个独立的服务器。计算机集群技术的出发点是为了提供更高的可用性、可管理性、可伸缩性的计算机系统。一个集群包含多台拥有共享数据存储空间的服务器，各服务器通过内部局域网相互通信。当一个节点发生故障时，它所运行的应用程序将由其他节点自动接管。在大多数模式下，集群中所有的节点拥有一个共同的名称，集群内的任一节点上运行的服务都可被所有的网络客户所使用。集群的特点 1．提供强大处理能力的高性能计算机系统：计算机集群可以通过负载均衡、并行处理、时间片处理等多种形式，将多台计算机形成高性能计算机集群。对用户端（Client）而言，计算机集群则是一个单一的系统，可以为用户提供高性能的计算机系统，而用户不用关心有多少计算机承担了系统实现的任务，而只需要关注系统的整体处理能力。因此，计算机集群可以用多台普通性能的计算机组成具有高性能的计算机系统，承担只有超级计算机才能胜任的工作。 2．提供高可用性的计算机系统：通过计算机集群技术组成的系统，可以确保数据和应用程序对最终用户的高可用性，而不管故障属于什么类型。即当计算机集群中的节点计算机出现软硬件故障的时候，高可用性集群提供了对软件和硬件失败后的接替。它将服务器镜像到备用系统或节点中，当主节点上的系统崩溃时，冗余节点就从替补角色转换到正式角色，并自动投入应用，从而保证了系统运行的不间断。

DBTwin数据库集群技术白皮书

DBTwin数据库集群系统技术白皮书无锡浙潮科技有限公司 2010年1月

目录 1.当前数据库用户面临的问题 (3) 2.当前市场上存在的针对数据库的解决方案 (4) 3.DBTWIN数据库集群 (8) 4.DBTWIN的实现原理 (9) 5.DBTWIN的特性 (10) 6.DBTWIN技术指标 (11) 7.DBTWIN与备份/复制软件，及数据库镜像的功能、特点比较 (12) 8.DBTWIN支持的系统环境 (12)

1.当前数据库用户面临的问题随着信息时代的发展，公司和企业的运作越来越依赖于计算机系统。大量有关企业生产、销售的数据维系着企业的生存，是企业珍贵的无形资产。这些数据一旦因为存储系统遭受到失窃、断电或不可避免的自然灾害，造成大量丢失，将会给企业带来重大的经济损失。根据Gartner的调查数据，在经历大型灾难事件而导致系统停运的公司中，有五分之二左右的公司再也没有恢复运营，剩下的公司中也有接近三分之一在两年内破产了。而由于数据库的故障导致的重大事故确是时有发生的，让我们来看几个实例：实例1：2005年12月5日，国内某著名网络游戏公司的数据库服务器出现严重宕机事故，造成众多玩家数据丢失并蒙受经济损失实例2：2005年6月9日某证券公司股票交易系统的数据库出现故障，股票无法正常买卖，迫使股民望“红”兴叹。实例3：2002年7月23日国内某机场数据库系统宕机，导致6000名旅客长时间滞留机场。实例4：2000年国内某银行的支付系统突然死机，给广大用户造成极大的损失和不便。以上发生的这些事件都是与企业数据库系统相关的故障。另外，几乎每个数据库客户都或多或少地存在数据库性能问题，当然数据库性能问题涉及很多方面，其中，能否采用“集群”的方法来提高性能，我们公司研究的重点。概括来讲，当前数据库系统已经成为了企业信息系统的瓶颈，究其原因，各厂家的解决方案无外乎在下列三大方面无法取得同步的进展： 1）数据库数据可靠性 2）数据库系统性能 3）系统服务的可用性当前几乎所有的数据库系统解决方案，都无法的象真正的集群系统那样，在上述三方面同时具有良好的可伸缩性，具体来讲，当前数据库系统存在下列各种各样的问题：

华师大高性能计算集群作业调度系统简明手册

华师大高性能计算集群作业调度系统简明手册华师大高性能计算集群采用曙光的Gridview作业管理系统，其中集成了torque+Maui，是十分强大的作业调度器。下面将依次介绍华师大的的作业调度系统的设定，使用，以及相关作业调度命令一：华师大作业调度系统队列策略设定由于华师大的超级计算中心共分三期建设，其作业调度设定较为复杂： CPU 节点名 (pestat 可查看) 节点Core 个数队列备注第一期E5450 b110-b149 b210-b229 8(2*4) mid1,huge 第二期E5640 b310-b339 b410-b439 8(2*4) mid2, hugeA(需申请) 其中hugeA队列提交后需经批准第三期X5675 ,GPU(c2050 ) a110-a149 a210-a249 a310-a339 a410-a447 12(2*6) mid3,small,ser ial,gpu hugeB(需申请), shu(私有队列) itcs(私有队列) 其中hugeB队列提交后需经批准 shu和itcs为私有队列，不向公共用户开放在命令行输入cchelp 可以查看详细的华师大的作业调度系统策略，如下二：作业调度系统的使用

华师大计算中心共有两个登陆节点login(59.78.189.188)和login1(59.78.189.187)，供用户登陆提交相关作业。一般来说，可直接使用命令行提交作业。不过为了规范和易于管理，建议使用PBS脚本进行作业提交，提交命令为qsub **.pbs(pbs脚本文件)。下面将简要的分别给出串行作业和并行作业的PBS样本(已放至/home/目录下)，仅供参考，更多高级功能，请自行查阅相应手册。 1.串行作业pbs脚本样本 #PBS -N test \\表示该作业名称为test。 #PBS -l nodes=1:ppn=1 \\表示申请1 个节点上的1 颗CPU。 #PBS -j oe \\表示系统输出，如果是oe，则标准错误输出(stderr)和标准输出(stdout)合并为stdout #PBS –q serial \\表示提交到集群上的serial 队列。 . /job>job.log 为提交的作业。 2.并行作业PBS脚本样本

Linux高可用集群系统的结构和原理分析

收稿日期:2007-09-15 第一作者简介:左婷(1979-),女,吉林省四平市人,现为吉林师范大学信息网络中心研究实习员. 2007年11月吉林师范大学学报(自然科学版) .4第4期Journal of Jilin Normal University(Natural Science Edition)Nov.2007 Linux 高可用集群系统的结构和原理分析左婷1,吴会军2 (1.吉林师范大学信息网络中心,吉林四平136000;2.吉林省水文水资源局,吉林长春130000) 摘要:通过对目前常用Linux 平台上高可用集群系统的软、硬件基本结构和工作原理的分析与研究,构建容易扩展、高可用、易维护和管理、高性价比的计算机系统. 关键词:L inux;高可用集群系统;结构;原理中图分类号:T P393 文献标识码:A 文章编号:1000-1840-(2007)04-0115-02 目前,很多国际知名软件公司和计算机厂商都推出了自己的集群产品,其中值得一提的是T he H igh A vailability L inux Project 的开放源代码Heartbeat,已经同商业集群软件一样成熟,而且较后者应用更为灵活.本文将着重介绍SuSE L inux Enterpr i se Server 10平台上Heartbeat2.0.8组成结构和工作原理.1 Linux 高可用集群系统的基本概念伴随着集群技术的发展,出现了一些关于集群系统的概念和术语.(1)集群资源和集群资源代理.在集群系统中,所有由集群控制和管理,并将其以单一和统一的形式提供给客户端用户使用的计算机资源称为集群资源,例如:一种服务、一个 IP 地址、一个磁盘驱动,甚至可以说:除了节点,其它任何软硬件资源都可以成为集群资源.而集群资源代理是为了控制和管理某一集群资源而编写的代理程序脚本,集群软件通过特定集群资源代理来操控某一集群资源,Heartbeat 套件本身已经包含了一些常用资源代理,开发人员也可以自己按照一定的规范编写;(2)指定协调者(也称主节点).主节点除了具有其它一般节点具有的集群节点基本功能外,还负责对整个集群系统的状态进行监控、分析和转换,对集群系统下达集群指令,协调各节点的操作等,实际上是整个集群系统的大脑!,显然一般情况下,整个集群系统只有一个主节点,但当某些特殊情况发生时,例如主节点不再是集群中的节点, 主节点将发生迁移,即位置发生了变化,另一个节点将代替它成为主节点;(3)ST ON IT H.英文 Shoot T he Other Node In T he Head !的缩写,代表一种将错误操作的节点进行隔离的技术,为了防止错误操作的节点对集群资源进行破坏性控制和操作,使其不断重新启动或关机,从而使其无法取得对集群资源的控制权;(4)裂脑和仲裁.在某种情况下,由于软硬件失败导致各节点无法相互确定彼此的状态时,整个集群将被分裂为几个部分,每个部分都想取得对集群资源的控制权,以保证集群的高可用,这种对集群资源的竞争将严重破坏集群资源的完整性和一致性,甚至导致整个集群瘫痪、硬件被损坏的严重后果,这种情况称为裂脑.为了防止裂脑的发生,由仲裁协议决定哪个部分来取得对集群资源的控制权,为了继续保证系统的高可用,一般将控制权交给节点数超过原集群节点数一半的部分,同时将其它节点进行隔离; (5)单点故障(失败).单点故障是指由于系统中某一组件的故障或运行失败从而导致整个集群系统瘫痪和应用服务完全停止,因此,在高可用集群的构建中应尽量避免单点故障.2 Heartbeat 的主要进程Heartbeat 的所有集群功能都是由它的进程和它们之间相互通信来具体实现的.(1)集群资源管理器(CRM ,Cluster Resource M anager).CRM 是集群系统中最主要的管理进程,它负责对整个集群资源的管理和约束,包括资源的配置及相互间依赖关系,并决定资源运行的状态、位置和时间等.另外它还负责监控本地资源管理器完成这些工作,CRM 通过与系统的每一个组件通信来相互作用和协调操作,CRM 通过heartbeat 通讯模块进行节点间通讯,从CCM 接受当前集群的成员信息,指令ST O NI TH Daremon 如何工作,负责记录系统日志等;(2)策略引擎(PE,CR M Policy Eng ine).PE 是CRM 的一个组件,只能在主节点上运行.PE 的功能是根据当前集群的状态及集群资源的约束配置计算出集群的下一个状态,即为T E 生成将要执行的计划和策略;(3)执行引擎(T E,CRM T ransi tion Engine).T E 也是CRM 的一个组件,只能在主节点上运行.T E 的功能是按照P E 生成的集群状态变化计划和策略,指令集群节点上的LRM 对具体的集群资源进行操作;(4)?115?

高性能计算(HPC)数据中心解决方案

解决方案简介面临的挑战随着当前信息的爆炸式增长，以及在使用基于x86微芯片的通用硬件方面的不断创新，通常是由多台机器来提供计算以共同执行非常复杂的任务。这使得网络成为一个至关重要的HPC 组件。解决方案瞻博网络提供一种高速的HPC 数据中心网络解决方案。此HPC 基础架构非常适合于那些希望近距离互连多台10GbE 服务器，而且延迟时间不能超过亚微秒的客户。优势 ? 基于10GbE 接入的模块化网络设计? 支持极大规模的低延迟连接? 提供多种功能来满足端到端的应用需求高性能计算(HPC )数据中心解决方案瞻博网络HPC 解决方案能够帮助客户执行密集的计算任务，并提供最大的网络效率和可靠性面临的挑战随着高性能集群解决方案和超级计算的日渐增加，越来越多的行业开始转向多节点集群应用。采用HPC 技术背后的主要驱动因素是越来越多的用户可以访问不断增加的数据量，这就需要进行计算以处理这些数据。由于基于以太网的集群解决方案的普及，以及在高性能业务中进行密集型计算和建模所带来的价值，很多企业开始重新审视计算集群为他们带来的经济效益。下面是多个行业从HPC 技术获得明显收益的实例： ? 设计工作室依靠计算集群来进行动画和视觉效果的渲染和建模。? 工程和建筑公司使用HPC 进行建模和3D 成像。? 石油和能源公司使用HPC 进行建模和地震研究。? 生物技术公司利用HPC 进行建模和预测性模型分析。? 投资公司和银行利用HPC 进行算法交易建模和快速市场分析。? 零售公司利用HPC 获得市场情报和进行基于视频的业务分析。? 学术界始终在挑战可以实现的最大计算能力。一般说来，这些计算挑战对于网络提出了一系列极为苛刻的要求。局域网的最初设计目的是将相对较近的最终用户工作站连接在一起，并支持这些工作站与远程网络进行通信。HPC 网络对于网络的要求主要是服务器与服务器的连接性，局域网应用与现代数据中心在通信流量模式上有很大差距，与HPC 数据中心的差距就更大了。由于这些因素，我们看到以太网大约只服务于一半的HPC 市场，In? niband 还占有显著的市场份额。一直以来，Infiniband 都被视作服务于那些低延迟和极高性能的HPC 集群应用的传统技术。不单单是现有的局域网架构不能很好地支持HPC 基础架构（瞻博网络基于1GbE 的集群交换fabric 技术可以解决这一问题），而且，长期以来以太网技术（实际上是局域网的基础）也缺乏某些HPC 集群所需的高性能特征。随着10GbE 的商业化，基于以太网的HPC 解决方案开始具有技术可行性和出色的经济性。

数据库集群实施方案

数据库集群实施方案数据库安全的核心和关键是其数据安全。数据安全是指以保护措施确保数据的完整性、保密性、可用性、可控性和可审查性。由于数据库存储着大量的重要信息和机密数据，而且在数据库系统中大量数据集中存放，供多用户共享，因此，必须加强对数据库访问的控制和数据安全防护。数据库系统安全的层次与结构一般数据库系统安全涉及5个层次：（1）用户层：侧重用户权限管理及身份认证等，防范非授权用户以各种方式对数据库及数据的非法访问；（2）物理层：系统最外层最容易受到攻击和破坏，主要侧重保护计算机*络系统、*络链路及其*络节点的实体安全；（3）*络层：所有*络数据库系统都允许通过*络进行远程访问，*络层安全性和物理层安全性一样极为重要；（4）操作系统层：操作系统在数据库系统中，与DBMS交互并协助控制管理数据库。操作系统安全漏洞和隐患将成为对数据库进行非授权访问的手段；（5）数据库系统层：数据库存储着重要程度和敏感程度不同的各种数据，并为拥有不同授权的用户所共享，数据库系统必须采取授权限制、访问控制、加密和审计等安全措施。为了确保数据库安全，必须在所有层次上进行安全性保护措施。若较低层次上安全性存在缺陷，则严格的高层安全性措施也可能被绕过而出现安全问题。数据库系统安全解决方案概述环境安全环境安全是指数据库所运行的软硬件环境的安全控制。正确的架构设计是数据库及其他应用稳定、安全的运行最有力保障，一个正确的架构设计可以较好的体现在物理环境中，通过比较简单的对物理环境的设定，就可以屏蔽大量的安全隐患。错误的架构设计会导致物理结构散乱，无论从运维还是管理上来说，都有相当大的困难，较多的物理漏洞必须通过繁杂的软件安全控制来屏蔽风险，抛开安全本身无法较好保证而言，更换服务器时对软件的设置相当困难。软硬件架构按照较大的框架进行分割，我们可以知道任何安全的架构都是传统三层架构的扩展，根本还是在于表示层，业务逻辑层，数据访问层，对于数据库看来则是应用层，中间层，数据层。逻辑上实现三层架构比较容易，在软件中分离数据访问即可，但是往往我们

高可用多机集群数据备份双机热备方案

PLUSWELL多机集群、数据备份解决方案北京蓝科泰达科技有限公司 2008年7月

一：概述企业和事业单位的运转越来越依赖于计算机系统，如果一旦这个数据处理中心无法正常运转，就会造成业务停顿，导致不可挽回的损失。而现有的双机热备份设备存在价格高昂，成本较高的情况，往往使用户望而却步。而用户寻求底成本的纯软件方案又往往因产品不容易维护，纯软件双机方案不稳定等因素，往往给用户造成不必要的使用麻烦。有时因护理不当造成数据损坏，发生更大的事故。蓝科泰达凭借其丰富的研发经验，为您提供高可用性系列产品和优质的服务，推出了蓝科泰达双机容错打包解决方案，目的在于保证数据永不丢失和系统永不停顿，同时为用户节省大量的开支。蓝科泰达容错系统结合了蓝科泰达磁盘阵列产品的安全可靠性与双机容错技术高可用性的优点，相互配合二者的优势。蓝科泰达磁盘阵列针对双机容错技术做了许多优化和改进，满足了双机硬件的连接要求，根据应用环境的实际情况，适用于Windows2000平台以上，开放源代码Linux 平台，SCO UNIX平台上的多种双机热备软件。二、需求分析企业关键业务一旦中断，企业的日常运作将受到致命的影响，那么就要求我们的系统在最短的时间内将系统恢复到正常状态。所以我们要求双机软件能够实现以下几点： 1、异常终端检测 2、网络故障，系统故障，应用程序故障等全系统检测 3、当高可用系统中的某个节点故障，无须人工干预自动切换，保障系统运行 4、速度快（快速恢复）贵单位业务平台，是以Windwos 2003 Server系统平台为基础，以SQL Server核心的数据库应用系统，该系统对稳定性要求很高、系统实时性和可用性提出要有连续运行的能力，系统一旦出现故障，其损失是惨重的。因此，建议用户采用高可用技术，高可用系统在各个节点间保持的间歇的通讯，使系统中的独立节点组合成整体的一套系统，并使用PlusWell 软件可以保障该系统中的某一节点故障都可被PlusWell 软件所监控，如主服务器应用程序、网卡、操作系统，均纳入公共的安全体系，确保7*24的不停机。比较典型的危及系统安全应用和系统错误主要有：（1）进程错误，比如用户应用与文件数据库的连接异常中断或用户进程发生错误。（2）文件系统故障，由于异常操作或其它原因造成文件系统内部部分信息丢失或不一致。（3）操作系统故障，操作系统本身的系统调用问题及底层的应用驱动在安装或更新出现冲突；（4）网络线缆故障。（5）介质问题，网络连接或物理硬盘也可能会出现问题。方案拓扑：

高性能集群计算解决方案

https://www.360docs.net/doc/923406442.html,/sige_online/blog/item/d6aa74a9106a10ff1f17a224.html 和卫星遥测,遥感等探矿技术的发展,促使油气勘探的数据量爆炸性地增长, 要求信息系统能够获取,存储和处理TB级的巨量数据; 使用更精确的模型:为了提高探矿水平,必须使用规模更大,更精确数值模型来模拟地下矿藏的分布.5年前,模型的节点数一般不超过10万个;现在,经常需要使用节点数超过百万的3维模型来进行数值模拟; 提供更强的计算和数据管理能力:模型规模的扩大要求使用处理能力指数增长的计算机系统和更复杂的算法快速和精确地求解,同时也要求更强的数据管理能力来建立历史数据库,并把当前数据与长期积累的历史数据相比较,得到精确的综合预测结果; 支持功能丰富的应用软件:现代的油气探测应用软件必须具有直观的3维图象显示和输出,人机交互功能, 以提高工作效率; 降低成本:经济效益和市场竞争压力还迫使油气行业的信息系统在严格控制开支,降低总拥有成本条件下满足上述要求当前,传统的巨型机已经很难全面满足上述要求.油气行业要求使用更经济实惠的新解决方案来全面满足应用需求.Schluberger信息系统公司(SIS)是油气勘探信息处理领域中领先的厂商,也是HP在高性能技术计算领域重要的合作伙伴.该公司在使用基于安腾2的HP Integrity 服务器为计算节点的Linux集群上开发的面向油气矿藏模拟的ECLIPSE Parallel解决方案,能够全面满足油气矿藏勘探信息系统在性能和成本两方面的需求,提供解决人类社会现代化进程中能源问题的利器. 目标市场 ECLIPSE Parallel解决方案使用数值模拟方法满足油气行业探测石油和天然气地下分布状况和预测储量的需要, 油气公司从低级经理到高级主管各种类型的人员都可以得益于这一解决方案,包括:负责提供优化的矿藏分布和产量预测评估人员和经济分析师,负责作出开采决策的经理,信息系统管理人员;需要得到直观和实时矿藏信息的首席信息官(CIO)和首席执行官(CEO),负责监管的政府机构等等. 这一解决方案特别适合于要求打破油气行业使用巨型机传统,采用性能更高,价格/性能最佳的新颖解决方案的油气公司. 解决方案概貌 SIS ECLIPSE Parallel是一个基于英特尔和HP工业标准技术的成套解决方案,便于实施和灵活配置,提供先进的油气矿藏模拟功能.这一解决方案由系统平台和模拟软件两大部分组成(见下图). HP Linux ClusterBlocks集群系统是第一个经过认证的系统平台.这一Linux集群包括如下的层次: 计算节点:采用基于安腾2的HP Integrity rx2600服务器,使用新一代安腾2提供强大的64位处理能力; 互联设备:采用工业标准的高速Myrinet把计算节点联成一体,以太网联接管理节点; 操作环境:采用应用最广泛的RedHat Linux Advanced Server操作系统建立集群运行的操作环境; 集群管理和作业调度:采用Scali, Scyld或ClusterWare 公司著名的Linux工具软件管理集群系统;采用业界领先的Platform Computing的LSF 5.0软件来实现负载平衡,提高集群的工作效率上层的ECLIPSE Parallel模拟软件负责完成矿藏模拟的数值计算,它把整个数值求解问题分解成一系列较小的子问题,送到各个计算节点上并行地求解,然后再合成完整的结果. ECLIPSE Parallel解决方案这一基于Linux集群并行计算的设计思想,在性能,性价比,可伸缩性和可用性等方面都超过基于巨型机的传统解决方案,具有广阔的发展前途. 组成部件 SIS ECLIPSE Parallel软件与HP ClusterBlocks 集群结合在一起形成了一个把最先进硬件和软件完美地结合在一起的油气储藏模拟解决方案,它的主要组成部件有: 基于安腾2处理器的HP Integrity rx2600服务器; 工厂组装的基于Myrinet高速互联网络的16-128节点 Linux集群系统; RedHat Linux Advanced Server 2.1操作系统; Platform Computing的负载调度软件(LSF) 5.0:用于平衡集群内各节点的工作负载,提供运行效率; 消息传递接口(MPICH/GM):用于支持基于集群架构系统内的并行计算; 集群管理软件:允许采用Scali, Scyld, ClusterWareLinux 等公司的软件管理集群系统运行和资源共享; SIS ECLIPSE Parallel 油气储藏模拟软件 SIS ECLIPSE Parallel解决方案的硬件系统使用HP Integrity rx2600服务器作为计算节点,高速的Myrinet作为互联设备组成Linux集群,为油气储藏模拟软件提供高性能运行平台. ECLIPSE Parallel软件把整个模拟模型分解成若干个子区域.