利用GPU进行高性能数据并行计算

2009-10-15 作者: 丁艺明刘波来源: 程序员

关键字: 高性能计算 GPU CPU

图形处理芯片GPU通过单指令多数据(SIMD)指令类型来支持数据并行计算，提供惊人的计算能力。本文探讨基于GPU的并行编程模型与并行编程等软件技术。虽然GPU最初专门是为图形渲染设计的，通过我们的DES 编解码, MD5密码破解, 字符串匹配等实验，证明GPU还可以有效地执行多种通用的基于整数的计算。本文还讨论了以通用计算为目的GPU发展趋势。

实验

我们的实验基于CUDA的SDK以及C语言编译器在8800GT显卡上开发运行的。CPU版程序为双线程，用VC++6.0开发，运行于Intel Core2Duo主频为2.6G赫兹。实验结果中，GPU版程序运行时间包括输入数据流和输出数据流上传和下载到显卡的I/O时间。

1、DES 编解码

DES算法对64位数据进行加密后输出64位数据。DES算法可以用流计算模型来实现，输入与输出流的基本数据类型为64位数据。核程序为DES算法。

表2：CPU/GPU DES编码实验结果

2、MD5密码破解

在我们的程序中，允许用户输入一长度为五的密码的MD5值，每位密码变化范围是A~Za~z[]\^_`{}|~，共64种字符。穷举所有的密码并用MD5算法得到所有的MD5值，与用户输入的MD5值比较，若枚举的密码MD5值与用户输入匹配，输出该密码。

MD5 破解可以用流计算模型来实现，输入流基本数据为长度为5个字符的密码，可以枚举出来。所有基于密码产生的128比特MD5值可看为中间结果流。核程序为MD5算法。最后，把中间结果和输入的MD5值比较的布尔值组成最终结果流。

表3：CPU/GPU MD5 破解实验结果

3、字符串匹配

本实验随机产生64M字节的文本和64个长度为8的关键字，找出在输入的文本中出现的关键字。本实验的程序采用的是

Boyer-Moore-Horspool-Sunday（BMHS）字符串匹配算法.

字符串匹配问题用流计算模型来实现，输入流为64M字节文本。核程序为分别对64个关键字进行字符串匹配的算法。把64个关键字字符串匹配结果的布尔值组成结果流。

值得一提的是，对每个关键词的搜索在窗口内进行，窗口的大小于关键词的长度相等，窗口沿着文本向右滑动。BMHS算法将窗口内文本的最后一个字符(L)和关键字的最后一个字符进行比较。如果相等，则需要在搜索窗口中从后向前对文本和关键字进行比较，直到完全相等或者在某个字符处不匹配。然后，都将根据L在关键字的下一个出现的位置将窗口向右移动。对每个关键词移动的距离，也就是下次读取字符的位置，是不一样的。参见图NVDIA GeForce 8体系结构，每次从GPU设备存储器(Device Memory)读取数据需要耗费400~600个时钟周期[1]。本实验把输入文本和一两维图像(纹理)进行绑定，这样也就利用了纹理缓存(Texture Cache)来提高设备存储器的访问速度，减少大量的I/O时间。

表4：CPU/GPU字符串匹配实验结果

4、实验结果小结

吞吐量可由输入数据大小比上处理器运行时间。从图3 CPU/GPU吞吐量实验结果表明，GPU在通用计算方面的性能能够比CPU快10倍以上。MD5密码破解程序的I/O最小，DES编码程序次之，字符串匹配程序I/O最大。相对于CPU版程序吞吐量，GPU版MD5

密码破解相对性能最高，DES编码程序次之，虽然字符串匹配程序相对性能最低，但GPU版程序也能比CPU版程序快一个数量级。

GPU能取代CPU吗？

GPU在运算能力的远远超越CPU，GPU是否能取代CPU呢？答案是否定的。GPU具有CPU所没有的局限性。GPU只提供单指令多数据类型处理，适合于数据并行计算。GPU在条件控制能力方面非常弱，若程序使用条件控制语句会极大影响GPU程序的执行效率。当然，有部分条件控制语句可以用计算来代替，例如，判断两个整数是否相等可以用两个整数异或后再映射成0和1来代替。本文中的实验中，利用了这些技巧来避免使用条件控制语句。另外现在的GPU与主机(host)数据交换只能通过总线来实现，对于需要大量I/O的应用，通讯就会成为GPU性能瓶颈。

以通用计算为目的GPU发展趋势

NVIDIA发布Tesla通用计算架构方案，Tesla GPU运算处理器不是一图形处理专业卡，可以看作之前的NVIDIA图形处理专业卡的通用计算版本。

可以看出，以通用计算为目的GPU发展趋势是GPU和CPU的整合，适合于大量数据并行计算的任务由GPU来承担，GPU定位为CPU的协处理器。需要复杂条件控制的，只能串行处理的任务由CPU来承担。CPU和GPU互相配合工作。

参考文献：

[ 1 ] NVEDIA。CUDA Programming Guide。

[ 2 ] Kapasi。流计算模型。

[ 3 ] Gonzalo Navarro, Mathieu Raffinot。《柔性字符串匹配》。[ 4 ] 沈璐。《GPU为什么跑得快·》。

汽车成功案例

汽车成功案例安全性问题竞争优势全球汽车工业对汽车安全性越来越重视，与安全强制法规相关的试验也在大量增加。目前碰撞安全问题在碰撞前、碰撞中和碰撞后阶段同时展开研究。在碰撞前阶段利用主动避撞系统；在碰撞中阶段利用车身结构、气囊展开、安全带张紧等措施减小伤害；在碰撞后阶段，主要关心油箱是否破裂以防止爆炸或起火。MSC.Software虚拟产品开发设计能够对每一个阶段进行设计研究。碰撞前阶段避免碰撞发生当然是车辆交通中最有效的降低伤亡的方法。而车辆的行为，例如车辆打滑、侧翻、或者车轮遇到冰路面将会发生何种状况等等可以利用虚拟样机来预测。在ADAMS/Car中结合多刚体和控制的仿真可以模拟从主动悬架到ABS制动器等系统的试验来增加主动安全性。通过同步调整机械、控制系统对车辆进行优化，可以大大缩短设计周期。碰撞中阶段一旦碰撞不可避免，气囊展开和座椅安全带的预张紧就成为减小伤害的关键因素，虚拟产品开发能够对这些系统进行优化。气囊展开可以利用SimOffice中的MSC Dytran，安全带约束系统的力可以利用多体仿真分析软件。在样车建造和法规试验之前进行虚拟试验可以大大地降低开发费用。法规试验中车辆各种性能可以用SimOffice中提供的有限元方法来进行精确地预测和研究。

碰撞仿真流程通常需要大量人力，管理仿真产生的海量数据也是一个挑战。模型组装、质量检查、定义工况、报告准备等方面如果引入流程自动化和数据管理则可以节省大量的人力。MSC.Software是领先的流程管理和自动化工具供应商，其产品MSC SOFY 和MSC SimManager都提供了汽车碰撞流程自动化的环境。将工作流程确定下来并进行客户化配置后，软件工具可以自动地生成代码来指导用户完成工作流程。例如，德国宝马(BMW)公司利用MSC SimManager建立碰撞仿真自动化流程，管理海量仿真数据，并且可以和供应商合作，使供应商可以上载各自相关的部件。 LSTC公司的领先的碰撞求解器LS-Dyna可以通过MSC Nastran（Sol700）的标准格式来调用。因此，适撞性和显著非线性问题都可以采用和NVH部门同样的模型，这样通过不同部门的协作可以节省大量的时间和费用。碰撞后阶段避免碰撞后起火取决于供油系统的完整性，该项安全要求已在美国安全法规FMVSS301中有明确规定。车辆碰撞后的燃油泄漏必须避免，MSC.Dytran采用拉格朗日和欧拉技术，可以模拟碰撞中和碰撞后油箱的液固作用、结构大变形、结构接触等问题。 MSC.SimManager也可以集成到碰撞后开发流程中，一级供应商TI汽车公司采用MSC.SimManager管理油箱开发过程中的冲击、压力真空、跌落、下陷等试验。车辆动力学问题矛盾汽车工业需要在开发过程中减少时间和费用，同时推出创新的产品。当前比较通用的策略是利用通用的开发平台、共享部件开发众多系列车型。这就导致出现两个相互矛盾的目标：一个是新系统的开发，另一个是通过共用平台和零部件减少系统的变型。借助于虚拟产品开发可以有效地满足这两个目标。

有限元仿真技术的发展及其应用

有限元仿真技术的发展及其应用许荣昌孙会朝(技术研发中心) 摘要:介绍了目前常用的大型有限元分析软件的现状与发展,对其各自的优势进行了分析,简述了有限元软件在冶金生产过程中的主要应用领域及其发展趋势,对仿真技术在莱钢的应用进行了展望。关键词:有限元仿真冶金生产发展趋势 0 前言自主创新,方法先行,创新方法是自主创新的根本之源,同时,随着市场竞争的日益激烈,冶金企业的产品设计、工艺优化也由经验试错型向精益研发方向发展,而有限元仿真技术正是这种重要的创新方法。近年来随着计算机运行速度的不断提高,有限元分析在工程设计和分析中得到了越来越广泛的应用,比如,有限元分析在冶金、航空航天、汽车、土木建筑、电子电器、国防军工、船舶、铁道、石化、能源、科学研究等各个领域正在发挥着重要的作用,主要表现在以下几个方面:增加产品和工程的可靠性;在产品的设计阶段发现潜在的问题;经过分析计算,采用优化设计方案,降低原材料成本;缩短产品研发时间;模拟试验方案,减少试验次数,从而减少试验成本。与传统设计相比,利用仿真技术,可以变经验设计为科学设计、变实测手段为仿真手段、变规范标准为分析标准、变传统分析技术为现代的计算机仿真分析技术,从而提高产品质量、缩短新产品开发周期、降低产品整体成本、增强产品系统可靠性,也就是增强创新能力、应变能力和竞争力(如图1、2) 。图1 传统创新产品(工艺优化)设计过程为大循环作者简介:许荣昌(1971-),男,1994年毕业于武汉钢铁学院钢铁冶金专业,博士,高级工程师。主要从事钢铁工艺技术研究工作。图2 现代CA E 创新产品(工艺优化)设计过程为小循环 1 主要有限元分析软件简介目前,根据市场需求相继出现了各种类型的应用软件,其中NASTRAN 、ADI N A 、ANSYS 、 ABAQUS 、MARC 、MAGSOFT 、COS MOS 等功能强大的CAE 软件应用广泛,为实际工程中解决复杂的理论计算提供了非常有力的工具。但是,各种软件均有各自的优势,其应用领域也不尽相同。本文将就有限元的应用范围及当今国际国内C AE 软件的发展趋势做具体的阐述,并对与冶金企业生产过程密切相关的主要有限元软件ANSYS 、AB AQUS 、MARC 的应用领域进行分析。 M SC So ft w are 公司创建于1963年,总部设在美国洛杉矶,M SC M arc 是M SC Soft w are 公司于1999年收购的MARC 公司的产品。MARC 公司始创于1967年,是全球首家非线性有限元软件公司。经过三十余年的发展,MARC 软件得到学术界和工业界的大力推崇和广泛应用,建立了它在全球非线性有限元软件行业的领导者地位。随着M arc 软件功能的不断扩展,软件的应用领域也从开发初期的核电行业迅速扩展到航空、航天、汽车、造船、铁道、石油化工、能源、电子元件、机械制造、材料工程、土木建筑、医疗器材、冶金工艺和家用电器等,成为许多知名公司和研究机构研发新产品和新技术的重要工具。在航空业M SC N astran 软件被美国联邦航空管理局(F AA )认证为领取飞行器适 13

PCC性能改进

淮阴工学院毕业设计外文资料翻译学院：建筑工程学院专业：土木工程房建方向姓名：王玮学号：1091401422 外文出处：MBTC DOT 3022 August 16 2012 附件： 1.外文资料翻译译文；2.外文原文。指导教师评语：签名：年月日

以纳米技术为基础对硅酸盐水泥混凝土的性能改进——第一阶段 Dr. R. Panneer Selvam ，Dr. Kevin Hall ，Sayantan Bhadra 摘要：对硅酸盐水泥混凝土(PCC)的纳米结构的基本认识是实现高性能和可持续性相关重大突破的关键。MBTC-研究(MBTC 2095/3004)使用分子动力学(MD)提供了对于水化硅酸钙(CSH)结构的新的理解(提供PCC强度和耐久性的主要成分);然而，由于MD方法能够考虑的原子数量，这项研究是有局限性的，特别是关于PCC中纳米水平上的力学性能。在这篇论文中为了断定CSH凝胶结构提出了离散元素法(DEM)，报告了三个阶段中第一阶段所取得的进展。给出了DEM研究所用的现有的免费软件和商法典。制定了一种内部的DEM规范，对粘性材料采用压痕式加载。样本模型计算合理的说明了DEM规范的发展及应用。关键词：纳米技术，硅酸盐水泥混凝土，离散单元法第一章：引言混凝土是使用最多的建筑材料，同时也是科学了解最少的材料。混凝土的寿命由于收缩裂缝、拉伸裂缝等受到限制。这主要是由于水泥浆复杂的无定形的结构。对于铜或铁来说很容易从实验中发现原子结构。由于超过5个不同的原子结合在一起形成水泥浆或CSH(Murray等人，2010& Janikiram Subramaniam等人2009)，很难从实验来了解原子结构。对硅酸盐水泥混凝土(PCC)的纳米结构的基本认识是实现高性能和可持续性相关重大突破的关键。最近通过MBTC 2095/3004项目，使用分子动力学(MD)得出CSH原子结构的一些理解。Selvam教授和他的团队(2009 -2011)使用分子动力学(MD)建模提出了可能的CSH原子结构。从纳米水平到宏观水平进一步的相关性能的研究由于考量纳米长度变化时需要考虑的原子数量的限制而受到局限。 Nonat(2004)和Gauffinet(1998)等人观察到C-S-H凝胶有片晶型形态，薄片的大小约为60 ×30×5nm。从Dagleish拍摄的AFM图像（如图1.1）看出，CSH纤维可能的大小为60 nm x 300μm。为了理解这些纤维之间的相互作用，需要的计算尺

显式有限元和隐式有限元

按照计算每一时刻动力反应是否需要求解线性方程组，可将直接积分法分为隐式积分方法和显式积分方法两类。隐式积分法是根据当前时刻及前几时刻体系的动力反应值建立以下一时刻动力反应值为未知量的线性方程组，通过求解方程组确定下一时刻动力反应。隐式方法的研究和应用由来已久，常用的方法有线性加速度法、常平均加速度法、Newmark方法、Wilson-θ法、Houbolt 方法等。显式积分法可由当前时刻及前几时刻的体系动力反应值直接外推下一时刻的动力反应值，不需要求解线性方程组，实现了时间离散的解耦。解方程组一般占整个有限元求解程序耗时的70％左右，因此，这一解耦技术对计算量的节省是可观的。隐式方法大部分是无条件稳定的，显式方法为条件稳定。显式方法的稳定性可以按满足精度要求的空间步距确定满足数值积分稳定性要求的时问步距来实现。显式方法受条件稳定的限制，时间积分步长将取得较小，但计算经验表明，对于一些自由度数巨大且介质呈非线性的问题，显式法比隐式法所需的计算量要小得多。因此，随着所考虑问题复杂性的增加，显式积分法得到重视。对于显式与隐式有限元的理解关键字: 有限元显式隐式显式算法和隐式算法，有时也称为显式解法和隐式解法，是计算力学中常见的两个概念，但是它们并没有普遍认可的定义，下面只是我的一些个人理解。一、两种算法的比较 1、显式算法基于动力学方程，因此无需迭代；而静态隐式算法基于虚功原理，一般需要迭代计算。显式算法，最大优点是有较好的稳定性。动态显式算法采用动力学方程的一些差分格式（如广泛使用的中心差分法、线性加速度法、Newmark法和wilson法等），不用直接求解切线刚度，不需要进行平衡迭代，计算速度快，时间步长只要取的足够小，一般不存在收敛性问题。因此需要的内存也比隐式算法要少。并且数值计算过程可以很容易地进行并行计算，程序编制也相对简单。但显式算法要求质量矩阵为对角矩阵，而且只有在单元积分点计算尽可能少时速度优势才能发挥, 因而往往采用减缩积分方法，容易激发沙漏模式，影响应力和应变的计算精度。静态显式法基于率形式的平衡方程组与Euler向前差分法，不需要迭代求解。由于平衡方程式仅在率形式上得到满足，所以得出的结果会慢慢偏离正确值。为了减少相关误差，必须每步使用很小的增量。除了欧拉向前差分法外，其它的差分格式都是隐式的方法，需要求解线性方程组。 2、隐式算法隐式算法中，在每一增量步内都需要对静态平衡方程进行迭代求解，并且每次迭代都需要求解大型的线性方程组，这以过程需要占用相当数量的计算资源、磁盘空间和内存。该算法中的增量步可以比较大，至少可以比显式算法大得多，但是实际运算中上要受到迭代次数及非线性程度的限制，需要取一个合理值。二、求解时间

ANSYS高性能并行计算

ANSYS高性能并行计算作者：安世亚太雷先华高性能并行计算主要概念 ·高性能并行计算机分类并行计算机主要可以分为如下四类：对称多处理共享存储并行机（SMP，Symmetric Multi-Processor）、分布式共享存储多处理机（DSM，Distributied Shared Memory）、大规模并行处理机（MPP，Massively Parallel Processor）和计算机集群系统（Cluster）。这四类并行计算机也正好反映了高性能计算机系统的发展历程，前三类系统由于或多或少需要在CPU、内存、封装、互联、操作系统等方面进行定制，因而成本非常昂贵。最后一类，即计算机集群系统，由于几乎全采用商业化的非定制系统，具有极高的性能价格比，因而成为现代高性能并行计算的主流系统。它通过各种互联技术将多个计算机系统连接在一起，利用所有被连接系统的综合计算能力来处理大型计算问题，所以又通常被称为高性能计算集群。高性能并行计算的基本原理就是将问题分为若干部分，而相连的每台计算机（称为节点）均可同时参与问题的解决，从而显著缩短解决整个问题所需的计算时间。 ·集群互联网络计算机集群系统的互联网络大体上经历了从Ethernet到Giganet、Myrinet、Infiniband、SCI、Quadrics(Q-net)等发展历程，在“延时”和“带宽”两个最主要指标上有了非常大的改善，下表即是常用的互联方式： ANSYS主要求解器的高性能并行计算特性

ANSYS系列CAE软件体系以功能齐全、多物理场耦合求解、以及协同仿真而著称于世。其核心是一系列面向各个方向应用的高级求解器，并行计算也主要是针对这些求解器而言。 ANSYS的主要求解器包括： Mechanical：隐式有限元方法结构力学求解器； CFX ：全隐式耦合多重网格计算流体力学求解器； AUTODYN：显式有限元混合方法流固耦合高度非线性动力学求解器； LS-DYNA：显式有限元方法非线性结构动力学求解器； FEKO：有限元法、矩量法、高频近似方法相互混合的计算电磁学求解器； ·高性能并行计算的典型应用现代CAE计算的发展方向主要有两个：系统级多体耦合计算和多物理场耦合计算，前者摒弃了以往只注重零部件级CAE仿真的传统，将整个对象的完整系统（如整机、整车）一次性纳入计算范畴；后者在以往只注重单一物理场分析（如结构力学、流体力学）的基础上，将影响系统性能的所有物理因素一次性纳入计算范畴，考虑各物理因素综合起来对分析对象的影响。因此，可以说，高性能并行计算也是CAE的发展方向，因为它是大规模CAE 应用的基石。例如，在航空航天领域，需要高性能并行计算的典型CAE应用有： –飞机/火箭/导弹等大型对象整体结构静力、动力响应、碰撞、安全性分析，整体外流场分析，多天线系统电磁兼容性及高频波段RCS分析，全模型流体－结构－电磁耦合分析；–航空发动机多级转子/静子联合瞬态流动分析，流体－结构－热耦合分析； –大型运载火箭/导弹发射过程及弹道分析…… · ANSYS求解器对高性能并行计算的支持作为大型商用CAE软件的领头雁，ANSYS在对高性能并行计算的支持方面也走在所有CAE软件的前列，其各个求解器对高性能并行系统的支持可用下表描述：

MSC.Software公司Marc产品介绍

Marc 全球非线性有限元软件行业的领导者 MSC.Marc是MSC.Software公司于1999年收购的Marc公司的产品。Marc公司始创于1967年，是全球首家非线性有限元软件公司。经过四十余年的不懈努力，Marc软件得到学术界和工业界的大力推崇和广泛应用，建立了它在全球非线性有限元软件行业的领导者地位。随着Marc软件功能的不断扩展，软件的应用领域也从开发初期的核电行业迅速扩展到航空、航天、汽车、造船、铁道、石油化工、能源、电子元件、机械制造、材料工程、土木建筑、医疗器材、冶金工艺和家用电器等，成为许多知名公司和研究机构研发新产品和新技术的必备工具。 Marc软件通过了ISO9001质量认证。在中国，Marc通过了全国压力容器标准化技术委员会的严格考核和认证，成为与压力容器分析设计标准GB4732－95相适应的有限元分析软件。一．产品特色 ◆多种物理场的分析能力。 ◆复合场的耦合分析能力。 ◆强大的非线性分析能力。 ◆最先进的接触分析功能。 ◆并行计算功能。 ◆丰富的单元库。 ◆开放的用户环境。 ◆强大的网格自适应功能。 ◆全自动三维网格重划分。二．方便高效的用户界面MSC.Mentat作为MSC.Marc程序的专用前后处理器，完全支持MSC.Marc所有功能。另外MSC.Patran已经实现了对MSC.Marc 结构分析、热分析和热－结构耦合分析的完全支持，也支持磁场、电场、压电场分析，下面主要介绍MSC.Mentat的功能。 1．几何建模 MSC.Mentat可通过自顶向下和自底向上的方式生成几何模型，支持对几何元素点、线、面、体的各种，例如增加、删除、编辑和显示等。 2．网格划分 MSC.Mentat提供功能齐全、性能卓越的的自动网格生成技术，可以将几何点、线、面元素直接转化成有限单元的节点、线单元和面单元。可以自动对几何形状划分面网格或体网格。具有专门的六面体网格生成器以及Rebar单元生成器。 MSC.Marc六面体网格自动划分功能充分考虑了网格划分的基本要求，用户可以指定内部网格稀疏过渡级别，程序在稀疏网格过渡处自动生成多点约束方程，满足位移协调。 3．网格操作 MSC.Mentat的其它有关网格功能有复制、移动、扩展、对称、转换、单元阶次的转换、检查、重排、相交、清除、松弛、拉直、重划分、附着等。 4．其他功能 MSC.Mentat的前处理功能除几何建模和网格划分外，还可以定义边界条件、材料参数、几何参数、接触信息、初始条件、连接关系（如多点约束）等。对于聚合物材料，如橡胶类材料，MSC.Mentat提供了曲线拟合功能。对于损伤分析所需的材料模型参数，用户定义表述材料连续或不连续软化的曲线后，可自动拟合出分析损伤的材料参数。 5．MSC.Mentat的文件接口包括：AutoCAD、ACIS、IGES、C-MOLD、STL、I－DEAS、MSC.Nastran、MSC.Patran、VDAFS。还可以将MSC.Marc分析结果以I-DEAS或Hypermesh的格式输出，以便在I-DEAS或Hypermesh界面上进行后处理。 MSC.Marc可以产生一个模态中性文件（MNF）来定义集成到MSC.ADAMS 模型中的柔性部件。

ansys并行计算设置方法等

ansys并行计算设置方法等 1.我有一个ANSYS输入文件，如何并行计算？答：最简单的办法是以批处理的方式提交。有以下几个步骤： (1)系统配置。一般已设置好，如有疑问或需进一步信息，请参考回答5。 (2)修改并行求解器脚本，指定使用CPU的个数。 a.在家目录下找到ansddsmpich文件。 b.其中的"-np"参数后带的数目，即为求解器所用的进程（或CPU）数目。必须指定为偶数。

(3)修改ansys输入文件，指定使用的求解器类型和使用方式（必须指定为script），以及求解器域分解的数目（必须大于如前指定的CPU的个数）。在输入文件中的SOLVE命令前加入如下信息（字母大小写随意）： /SOLUTION EQSLV,DDS !求解器类型为DDS DSOPT,SCRIPT,10 !域分解的数目为10，也可指定为其他值（必须大于如前指定的CPU的个数）。 (4)启动ANSYS并提交输入文件。在终端提示符后输入如下命令行（大小写敏感），调用ANSYS系统脚本即可。结果文件保存在当前目录下的tmp目录下。 ~/ansys_batch-sh example.inp 注意：用户需将example.inp换成自己输入文件的名字。 2.如何在ANSYS的字符界面下使用并行功能？答: 基本与回答1相同。 (1)先执行回答1中所述1、2、3步。 (2)启动ANSYS。在终端提示符后输入如下命令行（大小写敏感），在ANSYS提示符出现后按回车，即可输入ANSYS所识别的各种命令： ansys80 -p ANSYS -pp -mpi mpich (3)提交输入文件（注意加入回答1.3中命令！），有如下几种方式： a. 在ANSYS提示符下粘贴输入文件的内容； b. 使用ANSYS的/INPUT命令，指定输入文件； c. 在ANSYS提示符后交互式（文本界面下）输入命令。 3.如何在ANSYS的图形界面下使用并行功能？答：步骤如下。

基于PANDA框架的非线性静力学有限元

基于PANDA框架的非线性静力学有限元论文导读：基于PANDA框架。能够分析千万自由度规模的弹塑性静力学问题。非线性求解策略。形成了面向对象有限元并行计算框架PANDA。并行计算，基于PANDA框架的非线性静力学有限元。关键词：PANDA，静力学，非线性，有限元，并行计算 1 引言特种武器结构复杂，在整个库存到靶序列（Stockpile to TargetSequence，STS）全寿命周期内要经历复杂严酷的载荷和环境条件，结构响应呈现出高度的材料非线性、边界非线性和几何非线性。为提高特种武器的设计、试验和库存维护水平，对武器结构在各种条件下响应的精细建模和分析至关重要，需要充分考虑结构的几何细节和物理内涵，所建立的有限元模型可达上千万自由度规模乃至更高，而传统的商用有限元程序由于国外对我国的出口限制，非线性有限元模型的分析规模被限制在几百万自由度以下，且计算周期较长，无法快速响应设计和维护的需要。为了提升特种武器的工程数值模拟能力，适应不断提高的武器工程数值模拟需求，迎接和加速由现阶段小规模低效率计算向大规模高效并行计算的转变，2007年中国工程物理研究院启动了院预研重大项目“武器工程大规模并行计算框架研究及基础平台开发”。该项目在已有源码程序的基础上，通过在有限元并行计算方法方面开展研究与软件开发，初步形成了面向对象有限元并行计算框架PANDA，并基于PANDA框架初步开发了可应用于部分静力、振动、冲击和传热武器工

程问题求解的大规模有限元并行计算模拟程序。针对特种武器研制中的非线性静力学有限元大规模精细分析需求，充分消化吸收开放源代码的程序设计思想和技巧，基于PANDA框架，开发非线性静力学有限元分析所需的单元类型、材料模型、非线性并行求解策略，集成大规模线性方程组并行求解算法，初步形成了可求解小应变、有限应变线弹性和弹塑性静力学问题的非线性静力学程序。悬臂梁弹塑性有限元分析模型达到了千万自由度规模，并行求解时间低于一小时。本文介绍了基于PANDA框架的单元类型、材料模型、非线性求解策略设计，并初步验证了非线性静力学有限元并行计算程序的计算精度和千万自由度规模分析能力。 2 基于PANDA框架的非线性静力学有限元并行计算程序设计通过中国工程物理研究院的预研重大项目，采用面向对象、层次化、组件化的设计思想，对工程结构非结构网格有限元分析程序的基本数据结构、并行通信、求解控制等方面的共性和可重用部分进行抽象和程序实现，并集成了区域分割、解法器等服务组件，形成了面向对象有限元并行计算框架PANDA，提供经过系统规划设计的应用程序开发接口，以提供服务的形式引导应用程序的设计和实现，初步建立了结构分析有限元并行计算应用程序的集成开发环境。科技论文，并行计算。基于PANDA框架，结构分析有限元并行计算应用程序的开发工作变得较为简单和高效，程序开发工作量大为减少。在PANDA框架既设的应用软件架构下，应用程序开发者可以将精力集中到本应用程序独

多介质辐射流体力学数值模拟中的并行计算研究

多介质辐射流体力学数值模拟中的并行计算研究＊莫则尧张爱清曹小林左风丽北京应用物理与计算数学研究所高性能计算中心，北京１０００８８摘要多介质辐射流体力学是传统的计算挑战性应用问题，对大规模并行计算机有强烈需求．近年来，在万亿次并行机的５１２个处理器上，对该类应用中的多介质Ｅｕｌｅｒ流体力学方程、辐射扩散方程、粒子输运方程、以及这些方程之间的耦合连接，开展了有效的并行数值模拟．作为连接数值模拟和并行计算机的桥梁，并行计算也得到了快速发展．文中综述了并行计算，尤其是并行算法和并行实现关键技术方面的重要进展．通过这些算法和技术，可以看出作者是如何组织和完成这些万亿次并行数值模拟应用的．关键词并行计算数值模拟多介质辐射流体力学粒子输运当前，大规模并行数值模拟已经成为加速科学研究越来越重要的手段．在那些实验无法开展或者实验经费非常昂贵的领域，例如，高能量密度物理学研究领域［１］，这一手段尤其重要．惯性约束聚变（ＩＣＦ）［２１是高能量密度物理学研究的一个重要领域，其强间断非线性多物理现象的数值模拟吸引了大量的计算科学专家。这些现象可用多介质辐射流体动力学偏微分方程来近似描述．为了在并行机上求解该类方程，高效率的并行算法和并行实现技术非常重要．否则，该类应用的大规模数值模拟不可能实现［３］．例如，在当前先进的微处理器上，对二维辐射能量方程，８０００个网格的低精度串行求解就需要１个星期，而中子输运方程的２５３６个网格、４４群和１６个方向的串行求解则需要２４０天．况且，将来的高精度和高分辨率数值模拟需要将这些计算规模再扩大两个数量级．近年来，在万亿次并行机上，我们成功地组织了多介质辐射流体力学应用的大规模并行数值模拟，在５１２个处理器上，将多个数值模拟应用程序的执行速度或者问题的求解规模提高了两个数量级．其中，作为连接数值模拟应用和并行机的桥梁，并行计算研究，或者说并行算法和并行实现技术研究，取得了较大进展．本文将综述这些进展，解释我们是如何有效组织这些大规模数值模拟应用的．特别地，针对多介质Ｅｕｌｅｒ流体力学方程、辐射扩散方程和粒子输运方程，以及耦合连接三类方程的并行应用程序我们分别进行了讨论．本文给出典型的数值模拟性能结果．所有数值模拟中，我们均使用两台并行机，一台是并行机Ａ，含９６个处理器，消息传递平台ＭＰＩ的延迟为２肚ｓ，带宽为３．２ＧＢ／ｓ；另一台为并行机Ｂ，含１０２４个处理器，ＭＰＩ延迟为１０肚ｓ，带宽为４００ＭＢ／ｓ．两台并行机的单机峰值性能均为１ＧＦｌｏｐｓ．最后，我们总结了一些其他相关的工作进展．１并行算法与并行实现关键技术进展在ＩＣＦ等高能量密度物理应用领域，多介质辐射流体力学耦合粒子输运计算将占据实际数值模拟应用的绝大部分ＣＰＵ时间［４＿６］．一般地，辐射流体力学由质量守恒方程、动量守恒方程和能量守恒方程３部分组成．能量守恒方程通常写成电子温度、离子温度和光子温度的三温扩散方程的形式．３个２００５—０６—２８收稿，２００５—０９—０５收修改稿＊国家杰出青年科学基金（批准号：６０４２５２０５）和国家自然科学基金（批准号：６０２７３０３０）资助项目Ｅ—ｍａｉｌ：ｚｅｙａｏ—ｍｏ＠ｉａｐｃｍ．ａｃ．ｃｎ万方数据

通用显式非线性有限元程序：LS-DYNA

通用显式非线性有限元程序：LS-DYNA LS-DYNA 是世界上最著名的通用显式非线性有限元分析程序，能够模拟真实世界的各种复杂问题，特别适合求解各种二维、三维非线性结构的碰撞、金属成型等非线性动力冲击问题，同时可以求解传热、流体及流固耦合问题。在工程应用领域被广泛认可为最佳的分析软件包。与实验的无数次对比证实了其计算的可靠性。 LS-DYNA 是功能齐全的几何非线性（大位移、大转动和大应变）、材料非线性（140多种材料动态模型）和接触非线性（50多种）软件。它以Lagrange 算法为主，兼有ALE 和Euler 算法；以显式求解为主，兼有隐式求解功能；以结构分析为主，兼有热分析、流体-结构耦合功能；以非线性动力分析为主，兼有静力分析功能（如动力分析前的预应力计算和薄板冲压成型后的回弹计算）;是通用的结构分析非线性有限元程序。特色功能 ? 显式求解为主，兼有隐式算法，适合于求解高度非线性问题； ? 具有多种求解算法，以Lagrange 算法为主，兼有ALE、Euler 算法、SPH （Smoothed Particle Hydrodynamics）光顺质点流体动力算法和边界元法BEM（Boundary Element Method）； ? 具有160多种材料模型，是材料模型非常丰富的有限元软件； ? 具有50多种接触类型，是接触类型非常齐全的有限元软件； ? 极好的并行计算能力，包括分布式并行算法（MPP）和共享内存式并行（SMP）； ? 良好的自适应网格剖分技术，包括自适应网格细分和粗化； ? 行业化的专用功能：如针对汽车行业的安全带单元、滑环、预紧器、牵引器、传感器、加速计、气囊等。客户价值 ? 拥有显式和隐式算法，各向异性材料模型，使得板成型、回弹、预应力计算等，可以连续求解； ? 多种控制选项和用户子程序使得用户在定义和分析问题时有很大的灵活性； ? MPP 版本大幅度减少计算时间，计算效率随计算机数目增多而显著提高； ? 与大多数的CAD/CAE 软件集成并有接口。广州有道科技培训中心 h t t p ://w w w .020f e a .c o m

有限元仿真技术的发展及其应用

有限元仿真技术的发展及其应用许荣昌　孙会朝 (技术研发中心) 摘　要:介绍了目前常用的大型有限元分析软件的现状与发展,对其各自的优势进行了分析,简述了有限元软件在冶金生产过程中的主要应用领域及其发展趋势,对仿真技术在莱钢的应用进行了展望。关键词:有限元仿真　冶金生产　发展趋势 0　前言自主创新,方法先行,创新方法是自主创新的根本之源,同时,随着市场竞争的日益激烈,冶金企业的产品设计、工艺优化也由经验试错型向精益研发方向发展,而有限元仿真技术正是这种重要的创新方法。近年来随着计算机运行速度的不断提高,有限元分析在工程设计和分析中得到了越来越广泛的应用,比如,有限元分析在冶金、航空航天、汽车、土木建筑、电子电器、国防军工、船舶、铁道、石化、能源、科学研究等各个领域正在发挥着重要的作用,主要表现在以下几个方面:增加产品和工程的可靠性;在产品的设计阶段发现潜在的问题;经过分析计算,采用优化设计方案,降低原材料成本;缩短产品研发时间;模拟试验方案,减少试验次数,从而减少试验成本。与传统设计相比,利用仿真技术,可以变经验设计为科学设计、变实测手段为仿真手段、变规范标准为分析标准、变传统分析技术为现代的计算机仿真分析技术,从而提高产品质量、缩短新产品开发周期、降低产品整体成本、增强产品系统可靠性,也就是增强创新能力、应变能力和竞争力(如图1、2) 。图1　传统创新产品(工艺优化)设计过程为大循环作者简介:许荣昌(1971-),男,1994年毕业于武汉钢铁学院钢铁冶金专业,博士,高级工程师。主要从事钢铁工艺技术研究工作。图2　现代CAE 创新产品(工艺优化)设计过程为小循环 1　主要有限元分析软件简介目前,根据市场需求相继出现了各种类型的应用软件,其中NAST RAN 、AD I N A 、ANSYS 、ABAQUS 、MARC 、MAGS OFT 、COS MOS 等功能强大的CAE 软件应用广泛,为实际工程中解决复杂的理论计算提供了非常有力的工具。但是,各种软件均有各自的优势,其应用领域也不尽相同。本文将就有限元的应用范围及当今国际国内CAE 软件的发展趋势做具体的阐述,并对与冶金企业生产过程密切相关的主要有限元软件ANSYS 、ABAQUS 、MARC 的应用领域进行分析。 MSC 1Soft w are 公司创建于1963年,总部设在美国洛杉矶,MSC 1Marc 是MSC 1Soft w are 公司于1999年收购的MARC 公司的产品。MARC 公司始创于1967年,是全球首家非线性有限元软件公司。经过三十余年的发展,MARC 软件得到学术界和工业界的大力推崇和广泛应用,建立了它在全球非线性有限元软件行业的领导者地位。随着Marc 软件功能的不断扩展,软件的应用领域也从开发初期的核电行业迅速扩展到航空、航天、汽车、造船、铁道、石油化工、能源、电子元件、机械制造、材料工程、土木建筑、医疗器材、冶金工艺和家用电器等,成为许多知名公司和研究机构研发新产品和新技术的重要工具。在航空业MSC 1Nastran 软件被美国联邦航空管理局(F AA )认证为领取飞行器适 3 1

有限元分析发展介绍与发展趋势

计算机辅助分析论文题目：有限元分析发展介绍与发展趋势院(系)：机电工程学院专业、班级：机械设计制造及其自动化学生姓名：

有限元分析发展介绍与发展趋势摘要 1965年"有限元"这个名词第一次出现,到今天有限元在工程上得到广泛应用,经历了三十多年的发展历史,理论和算法都已经日趋完善。有限元的核心思想是结构的离散化,就是将实际结构假想地离散为有限数目的规则单元组合体,实际结构的物理性能可以通过对离散体进行分析,得出满足工程精度的近似结果来替代对实际结构的分析,这样可以解决很多实际工程需要解决而理论分析又无法解决的复杂问题。本文从应用的角度对系统进行建模分析，把目前应用和后继发展进行兼顾考虑，随着ansys的发展，该课题还存在大量的后续研究工作。关键字：有限元分析，结构计算，结构设计，发展趋势

Finite Element Analysis Introduction and development trends Abstract 1965 "finite element" the term first appeared, and today is widely used finite element in engineering, experienced more than 30 years of development history, theory and algorithms have been maturing. The core idea is to discrete finite element structure is supposed to be the actual structure of a finite number of discrete units combination rules, the physical properties of the actual structure can be analyzed by a discrete body, come to meet the engineering precision approximation to replace analysis of the actual structure, so that the theoretical analysis can solve complex problems they can not solve many practical projects need to be addressed. From the application point of the system modeling and analysis, to be considered taking into account the current application and subsequent development, ansys with the development of the subject there is a lot of follow-up research. Key Words：Finite element analysis, structural calculation, structural design, development trends

一种全耦合多相流分析的并行计算方法

力学学报 ACTA MECHANICA SINICA 1999年　第3期　No.3　1999 一种全耦合多相流分析的并行计算方法1) 王希诚摘要　研究了孔隙介质中热、水和汽流全耦合分析的并行计算方法.模型中采用了考虑毛细压力关系的修正有效应力概念,并考虑了相变和潜热传递.基本变量为位移、毛细压力、汽压和温度.并行程序是在国家高性能计算中心(北京)的曙光1000A上借助PVM(Parallel Virtual Machine)软件系统实现的,考题显示出较高的并行加速比和效率. 关键词　并行计算,多相流,可变形孔隙介质,相变 A PARALELL ANALYSIS METHOD FOR FULL COUPLED MULTIPHACE FLOW1) Wang Xicheng (Dalian University of Technology, Dalian 116024, China) Abstract In this paper, weconsider a full coupled multi-phase problem involving heat and masstransfer in deforming porous media. The mathematical model consists ofbalance equations of mass, linear momentum and energy and of theappropriate constitutive equations. The chosen macroscopic fieldvariables are temperature, capillary pressure, gas pressure anddisplacement. The gas phase is considered to be an ideal gas composed ofdry air and vapour, which are regarded as two miscible species. Themodel makes further use of a modified effective stress concept togetherwith the capillary pressure relationship. Phase change is taken intoaccount as well as heat transfer though conduction and convection andlatent heat transfer (evaporation-condensation). Discretization of thenon-linear governing equations is carried out by means of finiteelements in space and finite differeces in time. A multi-frontalparallel method in conjunction with a Newton-Raphson procedure isdeveloped to solve above problem. The given domain of the problem isdescretized into a finite number of subregions or subdomains.Multi-fronts are used to assemble and eliminate internal variable concurrently in every subregion. The contributions for interfaceequations are obtained from the frontal operating arrays when everywavefront comes to the boundary of its own subregion. Interfaceequations are solved to obtain the values of the boundary nodes of thesubregion. Once the values of the boundary nodes have been determined,the values within each subregion may be determined by aback-substitution routines of the multi-frontal proceduresindependently. This method has advantages shch as numbering of the finite element meshin an arbitrary manner, simple programming organisation, smaller corerequirements and shorten computation times. The