实验一多线程计算PI值

实验一、多线程计算PI值

1.实验要求

●将串行的积分法计算PI值程序改进成多线程层序

●解决同步问题

2.实验环境

Visual C++ 6.0

3.计算方法

矩形法则的数值积分方法估算PI的值

4.串行的积分法计算PI值

通过for循环，一个个的把sum值相加。

实现代码如下：

5.并行方法计算PI值

主要通过for循环的计算过程分到几个线程中去，每次计算都要更新sum的值，就有可能发生一个线程已经更新了sum的值，而另一个线程读到的还是旧的sum值，所以在这里要使用临界区，把sum放到临界区中，这样一次只能有一个线程访问和修改sum的值。实现代码如下：

6.运行结果

并行程序运行结果：

串行程序运行结果：

7.实验结果的分析

运行结果显示，串行的计算时间比并行的计算时间短。可能是因为分割的小矩形的数量不够大所导致的。就像人们出安全通道一样，如果人数较多的话，那么大家抢着走，显然出去的速度是很慢的，如果大家排队，井然有序的出，那么效率显然会提高很多的。

8.附代码并行代码

串行代码：

并行计算1

并行计算实验报告学院名称计算机科学与技术学院专业计算机科学与技术学生姓名学号年班级 2016年5 月20 日

一、实验内容本次试验的主要内容为采用多线程的方法计算pi的值，熟悉linux下pthread 形式的多线程编程，对实验结果进行统计并分析以及加速比曲线分析，从而对并行计算有初步了解。二、实验原理本次实验利用中值积分定理计算pi的值图1 中值定理计算pi 其中公式可以变换如下：图2 积分计算pi公式的变形当N足够大时，可以足够逼近pi，多线程的计算方法主要通过将for循环的计算过程分到几个线程中去，每次计算都要更新sum的值，为避免一个线程更新sum 值后，另一个线程仍读到旧的值，所以每个线程计算自己的部分，最后相加。三、程序流程图程序主体部分流程图如下：

多线程执行函数流程图如下：四、实验结果及分析

令线程数分别为1、2、5、10、20、30、40、50和100，并且对于每次实验重复十次求平均值。结果如下：图5 时间随线程的变化实验加速比曲线的计算公式类似于结果如下：图5 加速比曲线实验结果与预期类似，当线程总数较少时，线程数的增多会对程序计算速度带来明显的提升，当线程总数增大到足够大时，由于物理节点的核心数是有限的，因此会给cpu带来较多的调度，线程的切换和最后结果的汇总带来的时间开销较大，所以线程数较大时，增加线程数不会带来明显的速度提升，甚至可能下降。五、实验总结

本次试验的主要内容是多线程计算pi的实现，通过这次实验，我对并行计算有了进一步的理解。上学期的操作系统课程中，已经做过相似的题目，因此程序主体部分相似。不同的地方在于，首先本程序按照老师要求应在命令行提供参数，而非将数值写定在程序里，其次是程序不是在自己的电脑上运行，而是通过ssh和批处理脚本等登录到远程服务器提交任务执行。在运行方面，因为对批处理任务不够熟悉，出现了提交任务无结果的情况，原因在于windows系统要采用换行的方式来表明结束。在实验过程中也遇到了其他问题，大多还是来自于经验的缺乏。在分析实验结果方面，因为自己是第一次分析多线程程序的加速比，因此比较生疏，参考网上资料和ppt后分析得出结果。从自己遇到的问题来看，自己对批处理的理解和认识还比较有限，经过本次实验，我对并行计算的理解有了进一步的提高，也意识到了自己存在的一些问题。六、程序代码及部署程序源代码见cpp文件部署说明：使用gcc编译即可，编译时加上-pthread参数，运行时任务提交到服务器上。编译命令如下： gcc -pthread PI_3013216011.cpp -o pi pbs脚本(runPI.pbs)如下： #!/bin/bash #PBS -N pi #PBS -l nodes=1:ppn=8 #PBS -q AM016_queue #PBS -j oe cd $PBS_O_WORKDIR for ((i=1;i<=10;i++)) do ./pi num_threads N >> runPI.log

计算方法上机实验报告

《计算方法》上机实验报告班级：XXXXXX 小组成员：XXXXXXX XXXXXXX XXXXXXX XXXXXXX 任课教师：XXX 二〇一八年五月二十五日

前言通过进行多次的上机实验，我们结合课本上的内容以及老师对我们的指导，能够较为熟练地掌握Newton 迭代法、Jacobi 迭代法、Gauss-Seidel 迭代法、Newton 插值法、Lagrange 插值法和Gauss 求积公式等六种算法的原理和使用方法，并参考课本例题进行了MATLAB 程序的编写。以下为本次上机实验报告，按照实验内容共分为六部分。实验一：一、实验名称及题目： Newton 迭代法例2.7(P38):应用Newton 迭代法求在附近的数值解，并使其满足 . 二、解题思路：设'x 是0)(=x f 的根,选取0x 作为'x 初始近似值,过点())(,00x f x 做曲线)(x f y =的切线L ,L 的方程为))((')(000x x x f x f y -+=,求出L 与x 轴交点的横坐标) (') (0001x f x f x x - =,称1x 为'x 的一次近似值,过点))(,(11x f x 做曲线)(x f y =的切线,求该切线与x 轴的横坐标) (') (1112x f x f x x - =称2x 为'x

的二次近似值,重复以上过程,得'x 的近似值序列{}n x ,把 ) (') (1n n n n x f x f x x - =+称为'x 的1+n 次近似值，这种求解方法就是牛顿迭代法。三、Matlab 程序代码： function newton_iteration(x0,tol) syms z %定义自变量 format long %定义精度 f=z*z*z-z-1; f1=diff(f);%求导 y=subs(f,z,x0); y1=subs(f1,z,x0);%向函数中代值 x1=x0-y/y1; k=1; while abs(x1-x0)>=tol x0=x1; y=subs(f,z,x0); y1=subs(f1,z,x0); x1=x0-y/y1;k=k+1; end x=double(x1) K 四、运行结果：实验二：

PI值计算方法1

计算圆周率的一些公式 -|waruqi 发表于 2005-12-8 9:24:00 Machin公式这个公式由英国天文学教授John Machin于1706年发现。他利用这个公式计算到了100位的圆周率。Machin公式每计算一项可以得到1.4位的十进制精度。因为它的计算过程中被乘数和被除数都不大于长整数，所以可以很容易地在计算机上编程实现。还有很多类似于Machin公式的反正切公式: pi/4=arctg(1/2)+arctg(1/5)+ arctg(1/8) 1844.达塞利 = arctg(1/2)+ arctg(1/3) =2 arctg(1/3)+ arctg(1/7) =12 arctg(1/18)+8 arctg(1/57)-5 arctg(1/239) 在所有这些公式中，Machin公式似乎是最快的了。虽然如此，如果要计算更多的位数，比如几千万位，Machin公式就力不从心了。下面介绍的算法，在PC机上计算大约一天时间，就可以得到圆周率的过亿位的精度。这些算法用程序实现起来比较复杂。因为计算过程中涉及两个大数的乘除运算，要用FFT(Fast Four ier Transform)算法。FFT可以将两个大数的乘除运算时间由O(n2)缩短为O(nl og(n))。（FFT算法不在此文讲诉）

Ramanujan公式 1914年，印度数学家Srinivasa Ramanujan在他的论文里发表了一系列共1 4条圆周率的计算公式，这是其中之一。这个公式每计算一项可以得到8位的十进制精度。1985年Gosper用这个公式计算到了圆周率的17,500,000位。 1989年，David & Gregory Chudnovsky兄弟将Ramanujan公式改良成为：这个公式被称为Chudnovsky公式，每计算一项可以得到15位的十进制精度。1994年Chudnovsky兄弟利用这个公式计算到了4,044,000,000位。Chudnovsky 公式的另一个更方便于计算机编程的形式是： AGM(Arithmetic-Geometric Mean)算法 Gauss-Legendre公式：初值：重复计算：

并行计算第一次实验报告

并行计算上机实验报告题目：多线程计算Pi值学生姓名学院名称计算机学院专业计算机科学与技术时间

一. 实验目的 1、掌握集群任务提交方式； 2、掌握多线程编程。二.实验内容 1、通过下图中的近似公式，使用多线程编程实现pi的计算； 2、通过控制变量N的数值以及线程的数量，观察程序的执行效率。三.实现方法 1. 下载配置SSH客户端 2. 用多线程编写pi代码 3. 通过文件传输界面，将文件上传到集群上 4.将命令行目录切换至data，对.c文件进行编译 5.编写PBS脚本，提交作业 6.实验代码如下： #include

#include #include #include #include #include static double PI=0; static int N=0; static int numOfThread=0; static int length=0; static int timeUsed=0; static int numOfThreadArray[]={1,2,4,6,8,10,12,14,16,20,24,30}; static int threadArraySize=12; static int nTime=4; static int repeatTime=30; static double totalTime=0; struct timeval tvpre, tvafter; pthread_mutex_t mut; clockid_t startTime,endTime;

数学实验报告

《数学实验》报告题目：根据数值积分计算方法计算山东省面积学生姓名：学号：专业班级：机械工程17-1班

2019年4月15日

一、问题背景与提出图1是从百度地图中截取的山东省地图，试根据前面数值积分计算方法，计算山东省面积。图 1 二、实验目的 1、学会运用matlab 解决一些简单的数学应用问题。 2、学会运用matlab 建立数学模型。 3、学会运用一些常见的数值积分计算方法结算实际问题，并了解其实际意义，建立积分模型。三、实验原理与数学模型将积分区间 [a , b] n 等分，每个区间宽度均为h = (b - a) / n , h 称为积分步长。记 a = x 0 < x 1 < … < x k … < x n = b , 在小区间上用小矩形面积近似小曲边梯形的面积，若分别取左端点和右端点的函数值为小矩形的高，则分别得到两个曲边梯形的面积的近似公式： Ln = h ∑f (x k )n=1k=0 , h = b?a ?

R n =?∑f (x k )n k=1 , h = b?a ? 如果将二者求平均值，则每个小区间上的小矩形变为小梯形，整个区间上的值变为： Tn =?∑f (X k )n=1 k=1+?2[f (x 0)+f (x n )] 将山东省边界上的点反映在坐标化，运用梯形公式积分计算得山东省的面积。四、实验内容（要点） 1、将山东省的地图区域在matlab 中画出。 2、在坐标系上运用积分方法将所求区域的面积求出。 3、通过比例尺将山东省的实际面积求出。五、实验过程记录（含基本步骤、主要程序清单及异常情况记录等） 1、在百度地图中标识出山东省的区域范围，标明对应的比例：图 2 2、取出所截取图片中山东的边界的坐标，即将边界坐标化：（1）运用imread 函数和imshow 函数导入山东省的区域图片。

计算pi

一、实验目的探索精确计算π值的方法，并且比较不同方法之间的不同之处和优缺点。掌握数值积分的辛普森公式。二、问题描述 1. 任务1 1) 用反正切函数的幂级数展开式结合有关公式求π，若要精确到40位、50位数字，试比较简单公式和Machin 公式所用的项数。 2) 验证公式 111=arctan arctan arctan 4 258π ++ 试试此公式右端做幂级数展开完成任务1所需要的步数。 2. 任务2 用数值积分计算π，分别用梯形法和Simpson 法精确到10位数字，用Simpson 法精确到15位数字。 3. 任务3 用Monte Carlo 法计算π，除了加大随机数，在随机数一定时可重复算若干次后求平均值，看能否求得5位精确数字？设计方案用计算机模拟Buffon 实验 4. 任务4 利用积分 2 0(1)!!sin !!2 n n xdx n π π-=? ，n 为奇数推导公式 224422213352121 n n n n π=-+ ……… 用此公式计算π的近似值，效果如何？ 5. 任务5 利用学过的知识（或查阅资料），提出其他计算π的方法（先用你学过的知识证明），然后实践这种方法。对你在实验中应用的计算π的方法进行比较分析。 6. 任务6 e 是一个重要的超越数 1e lim 1)n n n →∞=+（ 1111...2!!(1)! e e n n θ =++++++ 试用上述公式或其他方法近似计算e 。

三、问题解法 1. 任务1 1) 根据幂级数展开的相关知识，易知： 24122211(1)1n n x x x x --=-+-+-++……… 因为2 1(arctan )'1x x =+，故可以求得arctan x 的幂级数展开式为： 35 211arctan (1)3521 n n x x x x x n --=-+-+-+-……… 当x=1时， -11111--(-1)4352-1 n n π=+??++? 当叠加了十万次以后得到结果π=3.141582654…只有五位有效数字，可见其精度与效率极低。如果想要精确计算π的数值的话，非常有必要寻找改进以后的方法，这就引出了两个能够提高计算效率的公式—— 简单公式： 11=arctan arctan 4 23 π + Machin 公式： 11=4arctan arctan 45239 π- 对以上两式进行arctan 的幂级数展开可以非常快速的求得π比较精确的数值。下面比较π精确到40位和50位数字时两个公式各需要计算多少项。用简单公式得到40位有效数字需要叠加62项： 3.141592653589793238462643383279502884197 用简单公式得到50位有效数字需要叠加79项： 3.1415926535897932384626433832795028841971693993751 用Machin 公式得到40位有效数字需要叠加27项： 3.141592653589793238462643383279502884197 用Machin 公式得到50位有效数字需要叠加35项： 3.1415926535897932384626433832795028841971693993751 从上面简单的对比可以看出Machin 公式要优于简单公式，简单公式要优于不用公式的arctan 幂级数展开。在得到相同精度的条件下，Machin 公式所需要的叠加步数要显著少于简单公式，并且在计算精度越高的情况下，优势越明显。道理很简单，因为 Machin 公式计算的收敛速度要显著快于普通公式。简单公式决定收敛速度的是12n ?? ??? ，而Machin 公式决定收敛速度的是15n ?? ???，因为15n ?? ???的收敛速度快于12n ?? ??? ，故Machin 公式计算pi 的时候收敛速度要快于普通公式。所以Machin 公式比普通公式更加精确，并且在计算高精度的时候有更大优势。 2) 根据三角函数公式有：

22进程、线程与并行计算(windows 编程技术)

第22章进程、线程与并行计算进程是正在运行的程序，线程是轻量级的进程。多任务的并发执行会用到多线程（multithreading ），而CPU 的多核（mult-core ）化又将原来只在巨型机和计算机集群中才使用的并行计算带入普通PC 应用的多核程序设计中。本章先介绍进程与线程的概念和编程，再给出并行计算的基本概念和内容。下一章讨论基于多核CPU 的并行计算的若干具体编程接口和方法。 22.1 进程与线程进程（process ）是执行中的程序，线程（thread ）是一种轻量级的进程。 22.1.1 进程与多任务现代的操作系统都是多任务（multitask ）的，即可同时运行多个程序。进程（process ）是位于内存中正被CPU 运行的可执行程序实例，参见图22-1。图22-1 程序与进程目前的主流计算机采用的都是冯·诺依曼（John von Neumann ）体系结构——存储程序计算模型。程序（program ）是在内存中顺序存储并以线性模式在CPU 中串行执行的指令序列。对于传统的单核CPU 计算机，多任务操作系统的实现是通过CPU 分时（time-sharing ）和程序并发（concurrency ）完成的。即在一个时间段内，操作系统将CPU 分配给不同的程序，虽然每一时刻只有一个程序在CPU 中运行，但是由于CPU 的速度非常快，在很短的时间段中可在多个进程间进行多次切换，所以用户的感觉就像多个程序在同时执行，我们称之为多任务的并发。 22.1.2 进程与线程程序一般包括代码段、数据段和堆栈，对具有GUI （Graphical User Interfaces ，图形用户界面）的程序还包含资源段。进程（process ）是应用程序的执行实例，即正在被执行的程进程（内存中）可执行文件（盘上）运行

PI的计算算法

上机7：文件操作一、问题：古人计算pi （3.1415926535 89793 23846……），一般是用割圆法。即用圆的内接或外切正多边形来逼近圆的周长。大约公元前1200年，中国人计算到小数点后1位；Archimedes 在公元前250年用正96边形得到pi 小数点后3位的精度；公元263年，刘徽用正3072边形计算到小数点后5位；公元480年，祖冲之计算到小数点后7位；Ludolph Van Ceulen 在1609年用正262边形得到了35位精度；1706年，John Machin 计算到小数点后100位。1874年，William Shanks 计算到小数点后707位（527位正确）。这种基于几何的算法计算量大，速度慢，吃力不讨好。 1973年Guilloud & Bouyer 用 CDC 7600计算机计算到1,001,250位；1989年Kanada & Tamurar 用 HITACHI S-820/80计算机计算到1,073,741,799位；1999年Takahashi & Kanada 用 HITACHI SR8000计算机计算到206,158,430,000位；pi 的最新计算纪录由两位日本人Daisuke Takahashi 和Yasumasa Kanada 所创造。他们在日本东京大学的IT 中心，以Gauss-Legendre 算法编写程序，利用一台每秒可执行一万亿次浮点运算的超级计算机，从日本时间1999年9月18日19:00:52起，计算了37小时21分04秒，得到了pi 的 206,158,430,208(3*236)位十进制精度，之后和他们于1999年6月27日以Borwein 四次迭代式计算了46小时得到的结果相比，发现最后45位小数有差异，因此他们取小数点后206,158,430,000位的p 值为本次计算结果。这一结果打破了他们于1999年4月创造的68,719,470,000位的世界纪录。随着数学的发展，数学家们在进行数学研究时有意无意地发现了许多计算pi 的公式。 Machin 公式 1 15239164arg arctg tg π=- 3 5 7 211()(1)35721 n n x x x x a rctg x x n --=-+-++-- 这个公式由英国天文学教授John Machin 于1706年发现。他利用这个公式计算到了100位的pi 值。Machin 公式每计算一项可以得到1.4位的十进制精度。因为它的计算过程中被乘数和被除数都不大于长整数，所以可以很容易地在计算机上编程实现。 Bailey-Borwein-Plouffe 算法 0142 1 1 ()1681848586n n n n n n π∞ ==---++++∑ 这个公式简称BBP 公式，由David Bailey, Peter Borwein 和Simon Plouffe 于1995年共同发表。它打破了传统的p 的算法，可以计算p 的任意第n 位，而不用计算前面的n-1位。这为p 的分布式计算提供了可行性。因此使用这个公式计算，与计算常数e （2.718282……）的公式非常类似，编程很容易实现。二、要求：编写程序计算常数π到小数点后任意位，并将数据写入文件中。参考程序： #include #include #include #include

数学计算方法实验报告

数学计算方法实验报告习题二 2.估计用二分法求方程f(x)=x3+4x2-10=0在区间[1,2]内根的近似值，为使方程不超过10时所需的二分次数。f(x k) 程序过程： function two (tolerance) a=1;b=2;counter=0; while (abs(b-a)>tolerance) c=(a+b)/2; fa=a^3+4*a^2-10;

fb=b^3+4*b^2-10; fc=c^3+4*c^2-10; if ((fa==0|fb==0)) disp(counter); elseif (fa*fc<0) b=c;counter=counter+1; elseif (fb*fc<0) a=c;counter=counter+1; elseif (fb==0) disp(counter); end end solution=(a+b)/2; disp(solution); disp(counter); 实验结果： 6.取x0=1.5,用牛顿迭代法求第三中的方程根.f(x)=x3+4x2-10=0的近似值（精确到||x k+1-x k|≦10-5,并将迭代次数与3题比较。程序过程： function six (g) a=1.5; fa=a^3+4*a^2-10;

ga=3*a^2+8*a; b=a-fa/ga; k=1; while(abs(b-a)>g) a=b; fa=a^3+4*a^2-10; ga=3*a^2+8*a; b=a-fa/ga; k=k+1; end format long; disp(a); disp(k); 实验结果：程序结果计算结果 8.用弦割法求方程f(x)=x3-3x2-x+9=0在区间[-2,-1]内的一个实根近似值x k,|f(x k)|≦10-5. 程序过程： function eight (t) a=-2; b=-1; fa=a^3-3*a^2-a+9; fb=b^3-3*b^2-b+9; c=b-fb*(b-a)/(fb-fa); k=1; while(abs(c-b)>t) a=b; b=c; fa=a^3-3*a^2-a+9; fb=b^3-3*b^2-b+9; c=b-fb*(b-a)/(fb-fa); k=k+1; end

传统并行计算框架与MR的区别

现在MapReduce/Hadoop以及相关的数据处理技术非常热，因此我想在这里将MapReduce的优势汇总一下，将MapReduce与传统基于HPC集群的并行计算模型做一个简要比较，也算是对前一阵子所学的MapReduce知识做一个总结和梳理。随着互联网数据量的不断增长，对处理数据能力的要求也变得越来越高。当计算量超出单机的处理能力极限时，采取并行计算是一种自然而然的解决之道。在MapReduce出现之前，已经有像MPI这样非常成熟的并行计算框架了，那么为什么Google还需要MapReduce，MapReduce相较于传统的并行计算框架有什么优势，这是本文关注的问题。文章之初先给出一个传统并行计算框架与MapReduce的对比表格，然后一项项对其进行剖析。 MapReduce和HPC集群并行计算优劣对比 ▲ 在传统的并行计算中，计算资源通常展示为一台逻辑上统一的计算机。对于一个由多个刀片、SAN构成的HPC集群来说，展现给程序员的仍旧是一台计算机，只不过这台计算拥有为数众多的CPU，以及容量巨大的主存与磁盘。在物理上，计算资源与存储资源是两个相对分离的部分，数据从数据节点通过数据总线或者高速网络传输到达计算节点。对于数据量较小的计算密集型处理，这并不是问题。而对于数据密集型处理，计算节点与存储节点之间的I/O将成为整个系统的性能瓶颈。共享式架构造成数据集中放置，从而造成I/O传输瓶颈。此外，由于集群组件间耦合、依赖较紧密，集群容错性较差。而实际上，当数据规模大的时候，数据会体现出一定的局部性特征，因此将数据统一存放、统一读出的做法并不是最佳的。 MapReduce致力于解决大规模数据处理的问题，因此在设计之初就考虑了数据的局部性原理，利用局部性原理将整个问题分而治之。MapReduce集群由普通PC机构成，为无共享式架构。在处理之前，将数据集分布至各个节点。处理时，每个节点就近读取本地存储的数据处理(map)，将处理后的数据进行合并(combine)、排序(shuffle and sort)后再分发(至reduce节点)，避免了大量数据的传输，提高了处理效率。无共享式架构的另一个好处是配合复制(replication)策略，集群可以具有良好的容错性，一部分节点的down机对集群的正常工作不会造成影响。硬件/价格/扩展性传统的HPC集群由高级硬件构成，十分昂贵，若想提高HPC集群的性能，通常采取纵向扩展的方式：即换用更快的CPU、增加刀片、增加内存、扩展磁盘等。但这种扩展方式不能支撑长期的计算扩展(很容易就到顶了)且升级费用昂贵。因此相对于MapReduce集群，HPC集群的扩展性较差。 MapReduce集群由普通PC机构成，普通PC机拥有更高的性价比，因此同等计算能力的集群，MapReduce集群的价格要低得多。不仅如此，MapReduce集群

《数学软件》实验报告-符号计算基础与符号微积分

实验报告课程名称：数学软件姓名：学院：专业：年级：学号：指导教师：职称：年月日

实验项目列表

附件三：实验报告（二）系：专业：年级：姓名学号：实验课程：实验室号：_ 实验设备号：实验时间：指导教师签字：成绩： 1. 实验项目名称：符号计算基础与符号微积分 2. 实验目的和要求 1.掌握定义符号对象的方法 2.掌握符号表达式的运算法则以及符号矩阵运算 3.掌握求符号函数极限及其导数的方法 4.掌握求符号函数定积分和不定积分的方法 3. 实验使用的主要仪器设备和软件方正商祺N260微机；MATLAB7. 0或以上版本 4. 实验的基本理论和方法（1）符号函数;sym(x)；syms a b …… （2）平方根：sqrt(x) （3）分解因式：factor（s）（4）符号表达式化简：simplify（s）（5）逆矩阵：inv(x) （6）下三角矩阵：tril（x）（7）矩阵行列式的值:det(x)

（8）符号函数求极限：limit （f ，x ，a ）；limit （f ，x ，a ，‘right ’）（9）符号函数求导：diff （f ，v ，n ）（10）符号函数求不定积分：int （f ，v ）（11）符号函数求定积分：int （f ，v ，a ，b ） 5. 实验内容与步骤（描述实验中应该做什么事情，如何做等，实验过程中记录发生的现象、中间结果、最终得到的结果，并进行分析说明）（包括：题目，写过程、答案）题目： 1. 已知x=6，y=5，利用符号表达式求 y x x z -++= 31。提示：定义符号常数)'5(')'6('sym y sym x ==，。 >> x=sym('6'); >> y=sym('5'); >> z=(x+1)/(sqrt(3+x)-sqrt(y)) z = 7/(3-5^(1/2)) 2. 分解因式：44y x - >> syms x y; >> A=x^4-y^4; >> factor(A) ans = (x-y)*(x+y)*(x^2+y^2) 3. 化简表达式 (1)2121sin cos cos sin ββββ- (2) 123842+++x x x (1) >> syms x y; >> f1=sin(x)*cos(y)-cos(x)*sin(y);

数学实验：怎样计算圆周率

怎样计算姓名：学号班级：数学与应用数学4班

实验报告实验目的：自己尝试利用Mathematica软件计算的近似值，并学会计算的近似值的方法。实验环境：Mathematica软件实验基本理论和方法：方法一：数值积分法（单位圆的面积是，只要计算出单位圆的面积也就计算出了的值）其具体内容是：以单位圆的圆心为原点建立直角坐标系，则单位圆在第一象限内的部分G是一个扇形，由曲线（）及坐标轴围成，它的面积是，算出了S的近似值，它的4倍就是的近似值。而怎样计算扇形G的面积S的近似值呢?如图

图一扇形G中，作平行于y轴的直线将x轴上的区间[0，1]（也就是扇形在x轴上的半径）分成n等份（n=20），相应的将扇形G分成n个同样宽度1/n的部分（）。每部分是一个曲边梯形：它的左方、右方的边界是相互平行的直线段，类似于梯形的两底；上方边界是一段曲线，因此称为曲边梯形。如果n很大，每个曲边梯形的上边界可以近似的看成直线段，从而将近似的看成一个梯形来计算它的面积；梯形的高（也就是它的宽度）h=1/n，两条底边的长分别是和，于是这个梯形面积可以作为曲边梯形面积的近似值。所有这些梯形面积的和T就可以作为扇形面积S的近似值： n越大，计算出来的梯形面积之和T就越接近扇形面积S，而4T就越接近的准确值。方法二：泰勒级数法其具体内容是：利用反正切函数的泰勒级数计算。方法三：蒙特卡罗法

其具体内容是：单位正方形的面积=1，只要能够求出扇形G 的面积S在正方形的面积中所占的比例，就能立即得到S，从而得到的值。而求扇形面积在正方形面积中所占的比例k的值，方法是在正方形中随机地投入很多点，使所投的每个点落在正方形中每一个位置的机会均等，看其中有多少个点落在扇形内。将落在扇形内的点的个数m与所投的点的总数n的比可以作为k的近似值。能够产生在区间[0，1]内均匀分布的随机数，在Mathematica中语句是 Random[ ] 产生两个这样的随机数x，y，则以（x，y）为坐标的点就是单位正方形内的一点P，它落在正方形内每一个位置的机会均等。P落在扇形内的充分必要条件是。这样利用随机数来解决数学问题的方法叫蒙特卡罗法。实验内容、步骤及其结果分析：问题1：在方法一中，取n=1000，通过计算图一中扇形面积计算的的近似值。分析：图一中的扇形面积S实际上就是定积分。与有关的定积分很多，比如的定积分

分布式与并行计算报告

并行计算技术及其应用简介 XX （XXX，XX，XXX）摘要：并行计算是实现高性能计算的主要技术手段。在本文中从并行计算的发展历程开始介绍，总结了并行计算在发展过程中所面临的问题以及其发展历程中出现的重要技术。通过分析在当前比较常用的实现并行计算的框架和技术，来对并行计算的现状进行阐述。常用的并行架构分为SMP（多处理系统）、NUMA （非统一内存存储）、MPP（巨型并行处理）以及集群。涉及并行计算的编程模型有MPI、PVM、OpenMP、TBB及Cilk++等。并结合当前研究比较多的云计算和大数据来探讨并行计算的应用。最后通过MPI编程模型，进行了并行编程的简单实验。关键词：并行计算；框架；编写模型；应用；实验 A Succinct Survey about Parallel Computing Technology and It’s Application Abstract:Parallel computing is the main technology to implement high performance computing. This paper starts from the history of the development of Parallel Computing. It summarizes the problems faced in the development of parallel computing and the important technologies in the course of its development. Through the analysis of framework and technology commonly used in parallel computing currently,to explain the current situation of parallel computing.Framework commonly used in parallel are SMP(multi processing system),NUMA(non uniform memory storage),MPP(massively parallel processing) and cluster.The programming models of parallel computing are MPI, PVM, OpenMP, TBB and Cilk++, etc.Explored the application of parallel computing combined with cloud computing and big data which are very popular in current research.Finally ,through the MPI programming model,a simple experiment of parallel programming is carried out. Key words:parallel computing; framework; programming model; application; experiment 1引言近年来多核处理器的快速发展，使得当前软件技术面临巨大的挑战。单纯的提高单机性能，已经不能满足软件发展的需求，特别是在处理一些大的计算问题上，单机性能越发显得不足。在最近AlphaGo与李世石的围棋大战中，AlphaGo就使用了分布式并行计算技术，才能获得强大的搜索计算能力。并行计算正是在这种背景下，应运而生。并行计算或称平行计算时相对于串行计算来说的。它是一种一次可执行多个指令的算法，目的是提高计算速度，及通过扩大问题求解规模，解决大型而复杂的计算问题。可分为时间上的并行和空间上的并行。时间上的并行就是指流水线技术，而空间上的并行则是指用多个处理器并发的执行计算。其中空间上的并行，也是本文主要的关注点。并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的，含有多个处理器的超级计算机，也可以是以某种方式互联的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理，再将处理的结果返回给用户。目前常用的并行计算技术中，有调用系统函数启动多线程以及利用多种并行编程语言开发并行程序，常用的并行模型有MPI、PVM、OpenMP、TBB、Cilk++等。利用这些并行技术可以充分利用多核资源适应目前快速发展的社会需求。并行技术不仅要提高并行效率，也要在一定程度上减轻软件开发人员负担，如近年来的TBB、Cilk++并行模型就在一定程度上减少了开发难度，提高了开发效率，使得并行软件开发人员把更多精力专注于如何提高算法本身效率，而非把时间和精力放在如何去并行一个算法。

计算pi

实验四你会用几种方法计算PI（圆周率）的值一、问题分析若想计算π的值，就要将跟π有关联的联系在一起，找到与π近似等价的式子，利用计算其值来得到π的值，还有对于含有π的面积、体积等关系式，可以尽量使用较规则的图形来代替进行面积、体积的求解。二、模型建立 2.1数值积分法找一个积分值等于π的定积分,则只要利用定积分计算出的值，就可以得到π的近似值。2.2幂级数法利用arctanx的泰勒展开式，计算π的近似值。当x=1时，arctan1= 2.3迭代法 1976年的迭代算法： 2.4 随机模拟法（蒙特卡罗方法）用随机模拟求单位圆面积向单位正方形随机投n块小石头，n很大时小石头大致均匀第分布在正方形中，如果有k块落在单位圆内，单位圆面积的近似值三、解决问题所需的基本理论和方法 (1)对于定积分,则只要计算出的值，就可以得到π的近似值,也就是计算出与直线 y=0,x=0,x=1所围成的曲边梯形，而对于此类计算往往采用数值积分梯形公式计算。梯形公式：将积分区间n等分将所有梯形面积加起来得到 Trapz(x)：输出数组x，输出按梯形公式x的积分(单位步长) Trapz(x,y):计算y对x的梯形积分，其中x、y定义函数关系y=f(x) (2)利用arctanx的泰勒展开式，计算π的近似值。函数taylor用于实现Taylor级数 r=taylor(f,n,v),指定自变量v和阶数n r= taylor(f,n,v,a),指定自变量v、阶数n，计算f在a的级数 (3)级数法

由于利用arctanx的幂级数展开法的收敛较慢，可采用公式的计算来求pi值。 (4)特殊公式（BBP）四、设计算法、编程求解 4.1数值积分法梯形公式Matlab代码： format long x=0:0.1:1; % x=0:0.01:1; x=0:0.02:1; x=0:0.001:1; x=0:0.0001:1; y=sqrt(1-x.^2); pi=4*trapz(x,y) MAtlab结果：数值积分法（梯形公式）Pi值 n=10 3.104518326248318 n=100 3.140417031779045 n=500 3.141487477002141 n=1000 3.141555466911028 n=10000 3.141591477611324 4.2幂级数法Matlab代码： (1) format long syms x f=atan(x); t= taylor(f,10,x,0); % t= taylor(f,100,x,0); t= taylor(f,500,x,0); t= taylor(f,1000,x,0); t= taylor(f,10000,x,0); x=1; pi=4*eval(t) 结果：级数法（arctanx）Pi值 n=10 3.339682539682540 n=100 3.121594652591011 n=500 3.137592669589472 n=1000 3.139592655589785

浅谈多核CPU、多线程与并行计算

0.前言最近发觉自己博客转帖的太多，于是决定自己写一个原创的。笔者用过MPI 和C#线程池，参加过比赛，有所感受，将近一年来，对多线程编程兴趣一直不减，一直有所关注，决定写篇文章，算是对知识的总结吧。有说的不对的地方，欢迎各位大哥们指正：） 1.CPU发展趋势核心数目依旧会越来越多，依据摩尔定律，由于单个核心性能提升有着严重的瓶颈问题，普通的桌面PC有望在2017年末2018年初达到24核心（或者16核32线程），我们如何来面对这突如其来的核心数目的增加？编程也要与时俱进。笔者斗胆预测，CPU各个核心之间的片内总线将会采用4路组相连：），因为全相连太过复杂，单总线又不够给力。而且应该是非对称多核处理器，可能其中会混杂几个DSP处理器或流处理器。 2.多线程与并行计算的区别 (1)多线程的作用不只是用作并行计算，他还有很多很有益的作用。还在单核时代，多线程就有很广泛的应用，这时候多线程大多用于降低阻塞（意思是类似于 while(1) { if(flag==1) break;

sleep(1); } 这样的代码）带来的CPU资源闲置,注意这里没有浪费CPU资源，去掉sleep(1)就是纯浪费了。阻塞在什么时候发生呢？一般是等待IO操作（磁盘，数据库，网络等等）。此时如果单线程，CPU会干转不干实事（与本程序无关的事情都算不干实事，因为执行其他程序对我来说没意义），效率低下（针对这个程序而言），例如一个IO操作要耗时10毫秒，CPU就会被阻塞接近10毫秒，这是何等的浪费啊！要知道CPU是数着纳秒过日子的。所以这种耗时的IO操作就用一个线程Thread去代为执行，创建这个线程的函数（代码）部分不会被IO操作阻塞，继续干这个程序中其他的事情，而不是干等待（或者去执行其他程序）。同样在这个单核时代，多线程的这个消除阻塞的作用还可以叫做“并发”，这和并行是有着本质的不同的。并发是“伪并行”，看似并行，而实际上还是一个CPU在执行一切事物，只是切换的太快，我们没法察觉罢了。例如基于UI 的程序（俗话说就是图形界面），如果你点一个按钮触发的事件需要执行10秒钟，那么这个程序就会假死，因为程序在忙着执行，没空搭理用户的其他操作；而如果你把这个按钮触发的函数赋给一个线程，然后启动线程去执行，那么程序就不会假死，继续响应用户的其他操作。但是，随之而来的就是线程的互斥和同步、死锁等问题，详细见有关文献。现在是多核时代了，这种线程的互斥和同步问题是更加严峻的，单核时代大都算并发，多核时代真的就大为不同，为什么呢？具体细节请参考有关文献。我

如何计算π的值

1、蒙特卡罗（Monte Carlo ）法思想：取一正方形A ，以A 的一个顶点为圆心，A 的边长为半径画圆，取四分之一圆（正方形内的四分之一圆）为扇形B 。已知A 的面积，只要求出B 的面积与A 的面积之比B A S k S =，就能得出B S ，再由B 的面积为圆面积的四分之一，利用公式2=S R π圆即可求出π的值。因此，我们的目的就是要找出k 的值。可以把A 和B 看成是由无限多个点组成，而B 内的所有点都在A 内。随机产生n 个点，若落在B 内的有m 个点（假定A 的边长为1，以扇形圆心为坐标系原点。则只要使随机产生横纵坐标x 、y 满足221x y +≤的点，就是落在B 内的点），则可近似得出k 的值，即m k n =，由此就可以求出π的值。程序（1）： i=1;m=0;n=1000; for i=1:n a=rand(1,2); if a(1)^2+a(2)^2<=1 m=m+1; end end p=vpa(4*m/n,30) 程序运行结果：

p = 2、泰勒级数法思想：反正切函数arctan x 的泰勒级数展开式为： 35 211arctan (1)3521 k k x x x x x k --=-+-???+-+???- 将1x =代入上式有 1 111arctan11(1)43521 n n π-==-+-???+--. 利用这个式子就可以求出π的值了。程序（2）： i=1;n=1000;s=0; for i=1:n s=s+(-1)^(i-1)/(2*i-1); end p=vpa(4*s,30) 程序运行结果： p = 当取n 的值为10000时，就会花费很长时间，而且精度也不是很高。原因是1x =时，arctan1的展开式收敛太慢。因此就需要找出一个x 使得arctan x 收敛更快。