正态分布图的制作方法

参考資料:QC 数学の話(大村 平著) 日科技連出版 翻訳完成日期:2009年6月6日 品质管理的基石统计初步(翻訳:李琰) 目录

·从互换性到品质管理

·QC 是迈向文明社会的技术突破 ·从互换性到品质管理 ·SQC 的成熟与TQC ·数据整理的基本 ·代表值的选出 ·平均值的计算 ·标准偏差的计算 ·正态分布概念引入 ·正态分布的加法与减法 ·正态分布应用举例

第1章

从统计学的互换性到品质管理

20世纪人类历史上发生了3大震撼世界技术的突破。1,原子能的利用;2,高分子化合物的合成;3,

信息技术的飞跃发展。关于原子能的利用,主要在民生和军事方面得到了广泛的发展。在人类历史上原子能的出现翻开了历史新的一页,震撼了世界这是众所周知的。二次世界大战期间在広島,長崎投下的原子弹的爆炸,造成了人类的大量伤亡。在民生应用方面,随着碳素系列能源的枯竭和CO 2排出的控制, 原子能发电已经得到广泛应用。

另外在高分子化合物合成技术方面,给人类生活带来了极大的影响。用塑料做成的各种各样建材类,器

具类遍布了我们的生活周围。如果把我们生活中存在的塑料制品全部拿走的话,我们生活就象没有了文字一样,土蹦瓦解。化肥使粮食增产。人工纤维的合成,给我们提供了丰富多样的衣着。合成橡胶,洗剂,粘结剂,调味品等不胜枚举。

还有,信息技术的飞跃发展。首先让我们只看一下和我们切身利益相关的民生用品,各种各样的业务预

约,存款储蓄,通信网和铁道网的管理,天气预报,犯罪搜查等虽然眼睛直接看不到,却支撑着我们的近代生活。而且各种技术计算,生命科学,人工智能等先端事物已变成了我们生活中的神圣组织。如果说没有高分子化合物我们的生活会瓦解的话,那么没有信息我们的生活会瘫痪。

基于以上,我们可以说,原子能是能源方面的突破,高分子合成是硬件方面的突破,信息技术是软件方

面的突破,3个方面对我们的生活带来了震撼性的影响。

那么为什么以上3个方面可以在20世纪能够获得极大的技术突破呢? 我认为是以下两个方面的原因:

1, 抗身抗生物质的发现。 2, 品质管理的普及。

为什么这么说呢?下面阐述理由。

最初的科学文明,把人类从严酷的劳动和疾病中解放出来。人类为了确保衣食住的安定,做出了很大的

QC 数学的

話题

努力,也取得了很大的进步。其中被迫做出的最大的苦战是与疾病的搏斗。但是20世纪链酶素和盘尼西林的出现飞跃性的改善了人们抗疾病的能力。不治之病和恐慌人们的结核病,痢疾,伤寒,霍乱,鼠疫等多种传染病得到了控制。一百年前和现在的寿命曲线对比看一下,就会一目了然。因此抗生物质的发现是20世纪震撼世界的较大的技术突破。

接下来我们讲述品质管理的推荐理由。生活在现代生活中的我们,被大量的工业品包围。正是因为工业品的存在,我们才可以享受丰富的现代生活。而且这些工业制品对我们基本没造成伤害。

电子微波炉过热造成的着火,热水壶把儿的着火,鞋底的脱落,皮带扣的断裂后造成裤子的突然脱落,瓶塞的破裂等以上的品质问题还不至于造成很大的担心。还有灯泡坏了换一个即可,电池和胶卷等也很容易买到手。几乎没有我们买不到的东西。我们可以放心大胆地使用围绕在我们周围的工业制品,但是做到放心使用是一件非常难的事情。要实现放心使用,我们首先必须做那些事情呢?

第一,这些工业制品必须大量生产。如果没有大量生产,销售价格不可能便宜,当然也不可能遍布全国。

第二,这些大量生产的工业制品必须100%的确保质量。如果品质不能保证,普及越广就会引起到处出问题。这是社会所不允许的。

基于以上,也就是说既要大量生产又要100%保证质量。当然不仅工业制品,农产物,水产物,畜产物等也是一样既要大量生产又要100%保证质量。

那么,怎么做才能使做出的所有的产品都符合品质要求呢?还有,流到市场上的产品都能保证质量吗?

然后就出现了一系列的品质管理手法(Quality Control,简称QC)。QC萌芽于1920年,成熟于20世纪后半期。均一品质产品的大量的供给生产,是科学文明发展史上的飞跃。这个飞跃被评价为20世纪文明的技术突破。这个评价一点也不夸张。

首先,互换性的解说。

黑猩猩用石头敲开果实的皮;有一种啄木的鸟用嘴吸仙人掌球,用嘴趋赶枯木缝中的虫子。动物使用工具的例子,通过观察可以举很多例子。但是,不管怎么动物都是在自然现有的物品中选别使用工具。动物自己不能创造工具,也不能使用部品组装成新的工具。

人类最初和动物一样,可是后来,通过锻打石头制作石器。把铁棒的头部磨尖制作枪。还有把尖的石器帮在铁棒的头部制作出了新的工具。这可以认为是使用两个以上的部品通过组装制作新工具的开始。

然后,人类学会把弓和箭合起来使用。把两个部品组合后使用确实是人类史上的一大进步。就是在那时,人类利用智慧,制作出了很多箭可以使用同一个弓,这样的箭相互之间可以相互替换具有融通性。这种部品之间可以相互替换使用的特性称为互换性。

在概念没有成熟之前,互换性已经被提前使用了。

话虽如此,互换性的概念成熟,基于互换性的基础上,大量生产成为可能在历史上是最近的事情。

17~18世纪伴随着工业革命的发展,大量生产大量消费的时代到来。没有互换性大量生产是几乎不可能的事情。在各个场所互换性的利用变成了理所当然的事情。

也就是在那个时候的1763年,法国的将军,为了实现带火炮,弹药的炮兵器材的互换性,发表了他制订的标准化计划。

进入20世纪后,正式的大量生产的时代到来了。那时谈的最多的话题是美国T型形式的车,从1908年开始近20年间生产了1500万台T型形式的车,该车也被称为“世纪车”。在日本也引进了海外车型经过日本本国的改进,有一种叫“圆太郎”的车在东京风靡一时,现在的前辈们非常怀念以前的古典的车厢。

在当时T型形式的车因性能好,外观优美曾经很畅销。不管怎么样T型车当时仍然是有钱人的奢侈品。

到普通大众可以买的起为止,必须进行大副降价。对于价格下降做出巨大贡献的是,传送带在流水线上的使用。

传送带系统,几乎被所有的制造业导入使用,为20世纪工业发展做出了巨大贡献。

那么,流水线能够成立的第一条件是部品同伴之间具有互换性。流水线左边传送上过来的部品和流水线上右边流过来的部品可以自由组装。流水线左边传送上过来的部品和流水线上右边流过来的部品永远可以自由组装,如果不是这样,流水线生产不可能实现。也就是说,左边部品的同伴之间必须具有互换性,右边部品的同伴之间必须具有互换性。

比如说,部品之间没有互换性,那将是一件非常麻烦的事情。配对部品在流水线上按一定的节拍流过来,如果某一个部品不能使用,将被返回原处。当然对该不良品需要进行必要的处理。也就是说带传送带的流水线生产方式是不可能的。

基于以上原因,用带传送带的流水线生产方式进行大量生产的前提条件是部品的同伴之间具有互换性。

那么通过什么样的手段才能保证部品之间的互换性呢?下面进行举例说明。

让我们想象一下,有一个直径10㎜的轴与一个直径为10㎜的轴套进行配合,并且进行大量生产。

站在生产轴的角度上,总是希望做出来的轴的外直径与10㎜相比不大也不小。站在做轴套的角度上,总是希望做出来的轴套的孔径与10㎜相比不大也不小。因为不是神仙,做出来的产品与要求的尺寸一点误差也没有是不可能的事情。

那么按这样的条件做出来的轴和轴套进行配合。用一个轴与所有的轴套进行配合试一下发现、轴的外径比轴套的孔径大时,轴无法进入到轴套中。轴的外径比轴套的孔径大的概率50%发生的可能性也是有的。不得已,只有通过不同的轴与不同的轴套逐个试一遍,也许会提高轴和轴套配合的良品率,那么会需要很多人手,在大量生产的情况下只有边生产边哭了。如果轴的同伴之间,轴套的同伴之间没有互换性的话,生产会非常狼狈。

因此在加工时要指定尺寸公差(尺寸单位使用mm.)

轴的直径10+0.0-0.1 (1.1)

轴套的直径10+0.1-0.0 (1.2)

总之,轴的外径在9.0~10.0之间波动,轴套的直径在10.0~10.1之间波动。按以上规格进行加工的话,尺寸最大的轴与尺寸最小的轴套进行配合的话,之间的缝隙用下列公式进行计算:

(10-0.0)-(10+0.0)=0 (1.3)

轴与轴套之间虽然一点缝隙也没有,努努力还是可以把轴塞到轴套中。下面我们用外径最小的轴与内径最大的轴套配合,之间的缝隙用下列公式进行计算:

(10+0.1)-(10-0.1)=0.2 (1.4)

轴与轴套之间会产生0.2的缝隙,但是这点缝隙对使用上不造成影响。这样的话所有的轴可以配合所有的轴套。可以说在本例的轴的同伴之间,轴套的同伴之间互换性得到了实现。

另外,(1.1)中的+0.0-0.1部分被成为公差值(tolerance)。为了实现部品同伴之间的互换性而制订的尺寸变化幅度。

接下来的话题可能会扯的远一些。现在我们尽量做出来的轴和轴套满足(1.1)和(1.2) 的要求。做出的大量的制品如果经过测量不满足尺寸规格,对不良品需要剔除,要花相当多的时间和劳力,也就是说要花大量的经费。

这时需要对所做的产品进行检查,比如说我们要加工一个轴要用图1.1样式的检查器具进行检查。虽然看起来有些古老,但是是最廉价的检查方法。

我们假定我们用无变形,无擦伤,无缺损的原材料制作内径为9.9和10.0的孔,制作出来的轴进入10.0的孔,不能进入到9.9孔内,我们判定该轴为良品。相反如果生产出来的轴不能进入10.0的孔或进入到9.9孔内我们判定该轴为不良品。

作为10+0.1-0.0孔的检查器具,用10.1的圆棒,10.0的圆棒进行测试,10.1的圆棒进入到孔中或10.0的圆棒不能进入到孔中都判定为不良品。

以上讲述的例子中,为了使轴和轴套具有互换性,对轴和轴套的尺寸进行了管理。尺寸是产品的重要品质项目之一,用专用的品质管理方法进行管理也言之不过。

前面提到过的话题讲述一下,前面(1.1)的要求进行加工轴时,轴的外径以9.95为目标进行加工。还有(1.2)的要求进行加工孔时,孔的内径以10.05为目标进行加工。也就是说,在部品加工时,我们一般按指定的公差中心值进行生产。在加工时如果有正确的品质管理方法,制作出来的轴和轴套之间的配合偏紧,偏松的几率接近零的话是最理想的。

基于以上,我们可以说大量生产与互换性是表里如一的,互换性与品质管理也是表里如一的。

SQC的成熟与TQC

时代在不断的进步,敲响人类最不幸大门的是第二次世界大战的爆发(1939~1945)。对于二次世界大战的看法多种多样,但是简单一句话概括的话,扩大了殖民地,世界被一分为二。一个是以美·英为首的战胜国,以日本为主的战败国。沾满血迹的一场场战争是历史上的悲惨事件。

随着近代工业的崛起,也伴随着战争的发生。但是这个战争是企业之间争夺销售量的战争,也就是企业之间的品质之战。在近代的战争中,战争的胜败主要取决于武器的数量和质量。于是在各个国家生产兵器的流水线大量激增,没有经验的作业员大量进入流水线,虽然可以增产,但是也不能降低质量。

对于这个非常高的要求,做的比较好的是美国。汽车自动化的实现,虽然一部分原因援于是因资源丰富和劳动力充足,但比这更为重要的是在品质管理方面的成功。

在各种各样的管理方法中,取得最显著成果的是抽样方法的应用。突然投入生产线的作业员生产出来的品质是不稳定的。对所有产品都检查,再加上剔除不良品,会花费大量的时间和人手。因此在大量生产的时候只有进行抽样检查。抽样时需按照一定的规则,用对抽样品的检查推测全部产品的品质状况。

根据品质检查结果,为了把不良品的不良率控制在要求范围内看需不要对生产工程进行改善。抽样方法作为品质管理战术确实带来了很好的效果。抽样方法被称为品质管理的源泉。以抽样方法这样的统计数学为基础的品质管理称为SQC(Statistical Quality Control)

对大量生产出来的制品进行抽样检查,可以推测整体不良率也可以对不良现状进行调查。但是仅靠这个抽样方法并不能降低不良率。从品质管理的角度上,材料和加工方法等方面,抽样方法确实是有效的品质管理手段。

但是,根据抽样方法的数据,对所有制品的品质性质进行推测的统计方法称为推测统计学。推测统计学需要有高等数学的知识,但是现场每个岗位全部配布具有高等数学的员工是不可能的。对数据整理,浅易能够理解的现场管理手法诞生了。这就是后来在日本企业非常普及的QC七个手法。

QC的七个手法是:检查表,直方图,柏拉图,管理图,散布图,特性要因图,图解。在所有的图解里面数据的层别图第一被重视。

第二次世界大战结束后,日本以制造工业国为目标从战后的废墟中迅速崛起。导入从美国产生并成熟起来的品质管理方法。日本从手表,相机,缝纫机,石油炉等轻工业为首的企业中充分使用了品质管理方法。最初的Made In Japan的产品给人的印象是价格便宜,质量非常差。导入美国的品质管理方法经过消化吸收后应用于他们的企业,短时间内改变了世界对日本产品的看法。

后来以现场为主的QC活动,扩展到企画,设计,营业,财务等部门,公司进入到全员QC活动的阶段。

品质的好与坏最终由客户判断的,符合客户需要的产品对客户来说就是良品。作为与客户经常接触的窗口人员应该了解倾注了全公司智慧的品质管理。

QC活动的实战部队是QC小组,以现场的班长为中心,现场作业员参加,以学习会的形式展开了QC小组运动。渐渐QC活动的热情运动充满了公司。

这种QC活动把公司全员的热情和想法带到品质管理中,使品质管理获得了巨大的成功,被全世界所认可。象这样全员参加的品质管理称为TQC(Total Quality Control)

以制造业为中心取得成功的TQC,后来在农水产业,建设业,流通业,金融业,服务业等几乎所有领域都推广了QC活动。

第2章

数据整理的的宝石。

看到一棵树会想到一片森林方法。

中国自古以来流行一句话:“举一反三”。是说对于一件事件知道的其中一部分可以推测其全部事件的特性。在英语中“A word to a wise man is enough”,这就是取样管理理念的精髓。

我们应该为抽样方法在品质管理上带来的特殊功效而感到高兴。我们使用的抽样方法是,在大量生产的制品中抽取极其少的一部分样品进行品质测量,调查。利用样品的测量,调查数据进行对全体产品的特性推测。也就是说知道1就可以推测100。但是对抽样方法必须智慧的使用,为了能够智慧地使用抽样方法,需要对下面的枯燥无味的话题进行说明。

我们在全部制品中取少数样品进行测量分析,这个被调查对象的全体称为母集团(POPULATION)。为调查取出来的样品称为标本(SAMPLE)这是统计学的一般做法。母集团中的要素个数是无限的话,我们称该母集团为无限母集团。母集团中的要素个数是有限的话我们称该母集团为有限母集团。虽然存在有限母集团,但是我们一般研究无限母集团。

那么,针对抽样检查,我们举个例子进行话题说明。检查对象的性质,有连续性的特征和离散性的特征两种情况。对两种情况必须进行区分。连续性的值:重量、长度、强度等。离散性:个数、性别、正、误、上、中、下。站在测量的立场上来看,对连续的参数进行测量时称为计量性,对离散性的参数进行测量时称为计数性。

对连续性和离散性的两种性质的数据使用的统计方法是不一样的。

连续性的数据做出来的图让我们感到非常美、非常陶醉。关于用物理性的测量仪器很难计量的数据、近年来各种各样的方法开始被设计出来并且得到了应用。不管如何,美感是品质管理的中枢。如果在品质管理上不追求完美品质就会掉眼泪了。

那么我们进行举例说明,例如某制药公司在最终工程,要把药每100g装入一个药瓶中。从医学的角度上和经营的角度上两方面进行考虑,装入药瓶的管理规格设为:

100±10g

也就是说把药装入药瓶的工程品质管理目标是:每瓶药的药量必须控制在“100±10g”的范围内。

在这个管理工程中,作业员有没有按规定在作业呢?装入瓶中的药量是否符合“100±10g”的要求呢?

为了解开以上疑问需要对装好的药瓶的药量进行抽样检查。在抽样时千万注意不能有习惯癖好。当您的习惯癖好刚好与机器的周期性癖好一致时,抽出来的样品的检验结果会和母集团的整体状态存在比较大的偏差。

为了避开认为因素造成的偏差,在抽样时尽可能不要把人为的意愿加进去。在抽样时完全听于天命。这样的抽样称为随即抽样(random sampling)

____________2·1________________________________

85 69 41 45 99 51 38 77 96

82 76 43 41 76 61 83 43 34

63 56 51 67 68 99 50 67 83

__________________________________________________

如果进行抽样,首先准备类似2·1的数表。比如说在以上表中抽取82,接下来再抽取哪个数据可以非常好的代表整体数据呢?速度很快的抽取82旁边的76的话那是不行的。必须反正常思维的把样品抽出来。

代表值的选出

那么,我们就马上开始吧。从简单的例子。

1,2,2,2,3,3,4,5

对以上8个数据进行筛选。我们看到这8个数据的值时,可以联想到8个行李包的重量,也可以联想到8位员工的从业年数,就是联想到8个人拥有的钞票的数量也是可以的。暂且认为这8个数据的值与母集团,标本等没有关系。怎么样才能正确的表达出这8个数据的特性呢?什么也不用考虑,因为只有8个数据,只要把[1,2,2,2,3,3,4,5]8个数据念完就可以知道整体的内容。但是当数据很多时怎么办呢?一个一个去数是不可能的。当数据多时需要从以下几点说明集团的性质。

1,值(数据)的个数

2,代表值

3,波动的大小

4,分布情况

关于数据不需要做特别的说明,本部分内容略去。对另外3个项目重点介绍。

首先,代表值的说明。在8个数据中选一个数做代表值,哪一个值最合适呢?如果这8个数据的值代表的是8个小包的重量,让我们做一个货架,放置任何一个小包都可以承受的起,那么选5作为代表值最合适不过了。

另外,当这8个值代表的是选举侯选者的编号时,那么2号是当选者。因为2这个值出现频度最多的,象这样的值称为频率最高值。在普通选举中,用频率最高值来决定胜负。

但是,假如没有特殊情况。只是单纯地来选代表值,那么这个代表值应该是接近这8个值中心的那个数。比如说[以0.1为中心值集合],[以300万为中心值的集合]。

中央值

数值从小到大排序,处于位置中心的值称为中央值。

算术平均值

[1,2,2,2,3,3,4,5]

对以上8个数据按民主主义的原则,每个数据取8分之1再相加。(2·1)

(1×1/8)+(2×1/8)+…+(5×1/8)

=(1+2+2+2+3+3+4+5)/8

=2.75

根据以上公式,8个数相加以后再平均(算术平均)。算术平均值可以作为集团的一个代表值。算术平均值有特殊的含义。让我们做个图(2·1)进行说明,首先我们假设有一个完全没有重量的棒,在棒上的任何地方都可以设定一个原点。然后,离开原点的一个单位距离的地方,画一个一个单位重量的球。在这里就设定距离单位为cm厘米,其实设定mm,m都可以。如同以上,我们在离开原点2个距离单位的地方画3个重量单位的球,在离开原点3个距离单位的地方画2个重量单位的球,在离开原点距离4个单位的地方画一个重量单位的球,在离开原点5个距离单位的地方画一个重量单位的球。让我们在画了球的棒上找一个点,这个点不偏向任何方向,这个点就是物理学上的重心,也就是数学上的相加平均(算术平均)。

我们书归正转,下面需要大家记住数学的专用符号。我们现实遇到的情况,并不象举的例子那样简单(1,2,2,2,3,3,4,5)。而往往是下面的情况:

x1,x2,x3, (x)

求N个值的和值就是如下公式

x1+x2+x3+…+xi+…xn

n

∑xi

i=1

以上求和公式是数学上的专用公式。∑读为西格玛,S是希腊字符Sum(合计)的第一个字母的表示。在∑下面i=1,i是从1开始的。∑上面写的n的意思是从1开始相加一直加到n为止。简单的记法为:

∑xi

N个值的相加平均记为x-,相加平均(算术平均)是N个值相加再被N除,用下面的公式进行表示:

x-=1/n∑xi

我们把N个值相乘再开方根,我们前面举例的8个数据为例

85

⨯=81440≈2.48

2

3

4

3

2

2

1⨯

通过以上公式得到的平均值称为相乘平均(几何平均)

相乘平均(几何平均)与整个集合的中心值非常接近,也非常有意义。因为计算比较麻烦,物理学上的意思的理解也比较困难,所以在统计学上始终没有得到广泛的应用。

偏差大小的表示

我们前面举过8个数值的例子。

1,2,2,2,3,3,4,5

作为这个集合的代表值可以使用相加平均(算术平均)2.75来描述。接下来我们着眼研究这组集合的偏差。虽然算术平均值可以一定程度上描述集合的性质,但是偏差多大看不出来,比如说2和4之间,-300和500之间集合的相加平均(算术平均)都有可能是2.75。因此我们需要对集合的偏差做出约束。就象集合的代表值一样,偏差也有专门的算法。我们用集合中的最大值与最小值的差来表示偏差。偏差的符号用R来表示

R=5-1=4

R是英语单词Range的第一个字母。这样的表示非常的轻松,但是如同算术平均值一样有它的缺点。证据如下:

(1,1,1,5,5)和(1,3,3,3,5)

两组数据进行比较看一下,两者的偏差R都是4,前组的数据分散在最大与最小两边,后组的数据则集中在中央。用眼睛一看感觉到后组的波动较小。为什么会出现这种情况呢?是因为偏差R值只用到了最大值与最小值两个数据。

与上面的求相加平均(算术平均)时一样,让所有的值都参与进来进行集合波动的研究。我们还是利用2·1的列举的8个数据,分别求他们离开中心值的距离,然后再对他们进行相加平均。

1-2.75=-1.75,…(中略)…,5-2.75=2.25

然后8个值相加再被8除,会得到什么样的结果呢?

期待充满胸怀,8个值分别减去2.75得到的差值再相加,我们会发现得到的和值是0。因为差值既有负值又有正值所以得到的和是0,这说明正向偏移的距离和负向偏移的距离相等。

我们不考虑正负号,偏移距离的绝对值进行平均。首先请看2·2的表。 -------------------------------------------------------------- Xi xi-x ︱ i-x ︱

-------------------------------------------------------------- 1 -1.75 1.75 2 -0.75 0.75 2 -0.75 0.75 2 -0.75 0.75 3 0.25 0.25 3 0.25 0.25 4 1.25 1.25 5 2.25 2.25

---------------------------------------------------------------- 合计 22 0 8.00

把xi-x 所有的值相加后,得到的和是0。如果不考虑正负号,把︱ i-x ︱所有的值相加得到的和是8。 群体波动的表示:1/n(xi-x)=1/8*8.00=1

8个值偏差波动是1,我们称之为平均偏差。标准偏差非常容易理解,也很容易计算。虽然有以上优点,但是还是没有被广泛应用,因为标准偏差是不考虑正负采用绝对值来计算的,在统计学的数学体系中是不受欢迎的。由于平均偏差是采用绝对值而没有得到广泛的应用,那么怎样才能既不需要采用绝对值,又能把符号去掉呢?我们使用二次方的形式。下面仍以 1,2,2,2,3,3,4,5 为例进行说明

-------------------------------------------------------------- Xi xi-x (i-x )2

-------------------------------------------------------------- 1 -1.75 3.0625 2 -0.75 0.5625 2 -0.75 0.5625 2 -0.75 0.5625 3 0.25 0.0625 3 0.25 0.0625 4 1.25 1.5625 5 2.25 5.0625

---------------------------------------------------------------- 合计 22 0 11.5000

利用下面的公式进行进行计算:

1/n(∑(xi-x)2

=1/8*11.500=1.4375 2·3

如果我们举例的单位为无名数的话,不会产生什么误解。可是如果给它增加个单位cm ,(xi-x -

)2的单位是cm 2

也就是说长度的单位的8个值,用2·3表示后变成了面积的单位cm 2

因此我们引入数学符号

2)(/1∧-∑x xi n =8/5.11=4375.1≈1.2

通过以上公式得到的值我们称之为标准偏差

来自表2·2

σ=

2

)

(

/

1∧

-

∑x

xi

n

该公式称为标准偏差公式,该标准偏差公式在统计学里面具有重要的意义。

练习:

1、09年2月15日

利用给定的数据进行求:标准偏差。

波动的分布情况

我们为了直截了当地描述一组数据的特性,前面讲述了相加平均也就是算术平均的概念。为了描述一个群体的数据的波动情况,我们引入了标准偏差的概念。最后我们研究一下数据的分布。

我们就用前面曾经用过的素材:

1,2,2,2,3,3,4,5 (2.1)

与前面2·1相同,数据共有8个,相加平均为2.75,标准偏差约1.2。

0.5,1.5,2.5,2.5,3.5,3.5,3.5,4.5 (2.15)

对“2.15”群体的数据而言,数值个数是8,相加平均2.75,标准偏差约1.2。如果仅凭数据个数,相加平均,标准偏差来描述一组数据群性质的话,(2.1)与(2.15)是完全一样的。

但是这两组数据的内容是完全不同的。前者都是整数(ROUND NUMBER),后者都是带小数点的数据群。前者群里面2这个数出现了3次,在群里面偏小的数据较多;后者群里面3.5这个数出现了3次,在群里面偏大的数据较多。两群数据到底有多少区别,只是用语言无法完全描绘。

因此,针对两组数据我们进行制作图表。以横轴表示数据的大小,纵轴表示数值的个数,这样制作出来的图称为直方图(histogram)也称柱状图。对两者的柱状图进行比较。

通过对两个图的比较我们可以看出,2·1直方图的中心向左偏,2·15的直方图的中心向右偏。不管如何,从两个图的对比可以看出,两图的中心反向。如果只是用语言说明,人的心情会很焦急。 对于直方图分布形状的描绘,用图画说明会更加容易理解。我们有句古话[听人说一百遍,不如用眼看一看], 在这里可以说成[用语言解释一百遍,不如用图看一看]。我们把2·1直方图的柱子高度,用线连起来,可以得到一条折线图。

因为在2·1的数据群中,数据总数只有8个,柱子只有5根,所以连起来的曲线不圆滑。但是随着数据的增多,柱子也会变多。当柱子无穷多时,最终折线变成平滑的曲线。

(g)锯齿型 常见的直方图

(f)孤岛型 (h)U 字型

在我们日常生活中常见的直方如上所示。

(a)是非常标准的正态分布图。我们以一定的品质为目标生产产品,无论怎么努力,产品与要求之间肯定

有误差。我们尽量减小误差,正误差和负误差尽量做到接近于0,但不可能使误差变为0。正态分布是抽样统计学的基本。

(b)工程的产品数据偏中心线以上。

(c)工程的产品数据偏中心线以下。

(d)加工过程中,有一个环节出了异常。比如说:车床的刀具磨损等

(e)两台机器同时加工同一类型的零件,但是两台机器的加工性能差别较大

(f)在组装过程中,大批量的中间有小批量的产品部品使用错误时,会有此图产生

(g)该图形在测量错误等时会发生。

以上我们介绍了各种各样的正态分布图,不同的图形也分别取了名字。不管取什么样名字,只要与图形的特征相吻合就可以了。

前面曾经介绍过的题材(1,2,2,2,3,3,4,5)可以按如下描述:

数值的个数 8个

代表值 2.75

数据波动度 1.2

分布型山顶左偏

下面讲述直方图的制作方法:

#:求极差R=最大值-最小值=SU-SL=107.3-93.4=13.9

#:求平均值X =(X1+X2+…X80)÷80 #:数据群划分组数决定(参照下图)

因为在该数据群中有80个数据所以根据上图需要分8个数据组。 #:求区间宽度a=R ÷组数=R ÷8=13.9÷8=1.7375≈2 #:制作区间度数列表 表2·5 区间度数列表

利用以上数据使用EXCEL 工具就可以制作出直方图了

WPS中用excel做正态分析

1.数据录入 新建excel文档,录入待分析数据(本例中将数据录入A列,则在后面引用中所有的数据记为A:A); 2.计算“最大值”、最小值、极差、分组数、分组组距,公式如下图: 3.分组 “分组”就是确定直方图的横轴坐标起止范围和每个小组的起止位置。选一个比最小值小的一个恰当的值作为第一个组的起始坐标,然后依次加上“分组组距”,直到最后一个数据值比“最大值”大为止。这时的实际分组数量可能与计算的“分组数”有一点正常的差别。类似如下图 二、统计频率 “频率”就是去统计每个分组中所包含的数据的个数。 最简单的方法就是直接在所有的数据中直接去统计,但当数据量很大的时候,这种方法不但费时,而且容易出错。 一般来说有两种方法来统计每个小组的数据个数: 1.采用“FREQUENCY”函数;

2.采用“COUNT IF”让后再去相减。 这里介绍的是“FREQUENCY”函数方法: “Date_array”:是选取要统计的数据源,就是选择原始数据的范围;“Bins_array”:是选取直方图分组的数据源,就是选择分组数据的范围; 生成“FREQUENCY”函数公式组,步骤如下: 1. 先选中将要统计直方图每个子组中数据数量的区域 2.再按“F2”健,进入到“编辑”状态 再同时按住“Ctrl”和“Shift”两个键,再按“回车Enter”键,最后三键同时松开,大功告成!

三、获取正态分布概率密度 正态分布概率密度正态分布函数“NOR MDIST”获取。在这里是以分组边界值为“X”来计算: Mean=AVERAGE(A:A)(数据算术平均) Standard_dev=STDEV(A:A)(数据的标准方差)Cumulative=0(概率密度函数) 向下填充

正态分布图的制作方法

参考資料:QC 数学の話(大村 平著) 日科技連出版 翻訳完成日期:2009年6月6日 品质管理的基石统计初步(翻訳:李琰) 目录 ·从互换性到品质管理 ·QC 是迈向文明社会的技术突破 ·从互换性到品质管理 ·SQC 的成熟与TQC ·数据整理的基本 ·代表值的选出 ·平均值的计算 ·标准偏差的计算 ·正态分布概念引入 ·正态分布的加法与减法 ·正态分布应用举例 第1章 从统计学的互换性到品质管理 20世纪人类历史上发生了3大震撼世界技术的突破。1,原子能的利用;2,高分子化合物的合成;3, 信息技术的飞跃发展。关于原子能的利用,主要在民生和军事方面得到了广泛的发展。在人类历史上原子能的出现翻开了历史新的一页,震撼了世界这是众所周知的。二次世界大战期间在広島,長崎投下的原子弹的爆炸,造成了人类的大量伤亡。在民生应用方面,随着碳素系列能源的枯竭和CO 2排出的控制, 原子能发电已经得到广泛应用。 另外在高分子化合物合成技术方面,给人类生活带来了极大的影响。用塑料做成的各种各样建材类,器 具类遍布了我们的生活周围。如果把我们生活中存在的塑料制品全部拿走的话,我们生活就象没有了文字一样,土蹦瓦解。化肥使粮食增产。人工纤维的合成,给我们提供了丰富多样的衣着。合成橡胶,洗剂,粘结剂,调味品等不胜枚举。 还有,信息技术的飞跃发展。首先让我们只看一下和我们切身利益相关的民生用品,各种各样的业务预 约,存款储蓄,通信网和铁道网的管理,天气预报,犯罪搜查等虽然眼睛直接看不到,却支撑着我们的近代生活。而且各种技术计算,生命科学,人工智能等先端事物已变成了我们生活中的神圣组织。如果说没有高分子化合物我们的生活会瓦解的话,那么没有信息我们的生活会瘫痪。 基于以上,我们可以说,原子能是能源方面的突破,高分子合成是硬件方面的突破,信息技术是软件方 面的突破,3个方面对我们的生活带来了震撼性的影响。 那么为什么以上3个方面可以在20世纪能够获得极大的技术突破呢? 我认为是以下两个方面的原因: 1, 抗身抗生物质的发现。 2, 品质管理的普及。 为什么这么说呢?下面阐述理由。 最初的科学文明,把人类从严酷的劳动和疾病中解放出来。人类为了确保衣食住的安定,做出了很大的 QC 数学的 話题

Excel有关正态分布函数NORMSDIST做正态分布图

Excel做正态分布图用正态分布函数NORMSDIST 正态分布函数的语法是NORMDIST(x,mean,standard_dev,cumulative)cumulative为一逻辑值,如果为0则是密度函数,如果为1则是累积分布函数。如果画正态分布图,则为0。 例如均值10%,标准值为20%的正态分布,先在A1中敲入一个变量,假定-50,选中A列,点编辑-填充-序列,选择列,等差序列,步长值10,终止值70。然后在B1中敲入NORMDIST(A1,10,20,0),返回值为0.000222,选中B1,当鼠标在右下角变成黑十字时,下拉至B13,选中A1B13区域,点击工具栏上的图表向导-散点图,选中第二排第二个图,点下一步,默认设置,下一步,标题自己写,网格线中的勾去掉,图例中的勾去掉,点下一步,完成。图就初步完成了。下面是微调把鼠标在图的坐标轴上点右键,选坐标轴格式,在刻度中填入你想要的最小值,最大值,主要刻度单位(x轴上的数值间隔),y轴交叉于(y为0时,x多少)等等。确定后,正态分布图就大功告成了。 PS:标准正态分布的语法为NORMSDIST(z), 均值:分布的均值; 标准差:分布的标准差; 累积:若1,则为分布函数;若0,则为概率密度函数。 当均值为0,标准差为1时,正态分布函数NORMDIST即为标准正态分布函数NORMDIST。 例3已知考试成绩服从正态分布,,,求考试成绩低于500分的概率。解在Excel中单击任意单元格,输入公式: “=NORMDIST (500,600,100,1 )”, 得到的结果为0.158655,即,表示成绩低于500分者占总人数的 15.8655%。 例4假设参加某次考试的考生共有2000人,考试科目为5门,现已知考生总分的算术平均值为 360,标准差为40分,试估计总分在400分以上的学生人数。假设5门成绩总分近似服从正态分布。 解设表示学生成绩的总分,根据题意,,。 第一步,求。 在Excel中单击任意单元格,输入公式: “=NORMDIST (400,360,40,1 )”,得数为0.841345. 在Excel中单击任意单元格,输入公式: “ ”,得到的结果为400.000042,即 第二步,求总分在400分以上的学生人数。 在Excel中单击任意单元格,输入“=2000*0.841345”,得到结果为1682.689, 即在2000人中,总分在400分以上的学生人数约为1683人。 标准正态分布函数

excel正态分布

正态分布函数的语法是NORMDIST(x,mean,standard_dev,cumulative)cumulative为一逻辑值,如果为0则是密度函数,如果为1则是累积分布函数。如果画正态分布图,则为0。例如均值10%,标准值为20%的正态分布,先在A1中敲入一个变量,假定-50,选中A列,点编辑-填充-序列,选择列,等差序列,步长值10,终止值70。然后在B1中敲入NORMDIST (A1,10,20,0),返回值为0.000222,选中B1,当鼠标在右下角变成黑十字时,下拉至B13,选中A1B13区域,点击工具栏上的图表向导-散点图,选中第一排第二个图,点下一步,默认设置,下一步,标题自己写,网格线中的勾去掉,图例中的勾去掉,点下一步,完成。图就初步完成了。下面是微调把鼠标在图的坐标轴上点右键,选坐标轴格式,在刻度中填入你想要的最小值,最大值,主要刻度单位(x轴上的数值间隔),y轴交叉于(y 为0时,x多少)等等。确定后,正态分布图就大功告成了。 PS:标准正态分布的语法为NORMSDIST(z), 正态分布 (一)NORMDIST函数的数学基础 利用Excel计算正态分布,可以使用函数。 格式如下:变量,均值,标准差,累积, 其中: 变量:为分布要计算的值; 均值:分布的均值; 标准差:分布的标准差; 累积:若1,则为分布函数;若0,则为概率密度函数。 当均值为0,标准差为1时,正态分布函数即为标准正态分布函数。 例3已知考试成绩服从正态分布,,,求考试成绩低于500分的概率。 解在Excel中单击任意单元格,输入公式: “ 500,600,100,1 ”,

用EXCEL制作直方图和正态分布图

制作直方图 1、数据录入 新建Excel文档,录入待分析数据(本例中将数据录入A列,则在后面引用中所有的数据记为A:A);2 2、计算最大值、最小值、极差、分组数、分组组距 其中:极差=最大值-最小值,分组数=数据的平方根向上取整,分组组距=极差/ 分组数 3、分组 分组就是确定直方图的横轴坐标起止范围和每个小组的起止位置。选一个比最小 值小的一个恰当的值作为第一个组的起始坐标,然后依次加上“分组组距”,直 到最后一个数据值比“最大值”大为止。这时的实际分组数量可能与计算的“分 组数”有一点正常的差别。 4、统计频率 “频率”就是去统计每个分组中所包含的数据的个数。 序号分组频数频率(%) 最大值57.9 1 50.50 0 0.00 最小值50.6 2 50.91 1 0.00 极差7.3 3 51.31 0 0.00 分组数18 4 51.72 1 0.00 分组组距0.406 5 52.12 6 0.02 6 52.53 7 0.02 7 52.94 24 0.08 8 53.34 59 0.20 9 53.75 37 0.12 10 54.15 38 0.13 11 54.56 36 0.12 12 54.97 28 0.09 13 55.37 18 0.06 14 55.78 22 0.07 15 56.18 10 0.03 16 56.59 3 0.01 17 57.00 6 0.02 18 57.40 0 0.00 19 57.81 2 0.01 20 58.21 1 0.00

5、制作直方图 选中统计好的直方图每个小组的分布个数的数据源(就是“频率”),用“柱形图”来完成直方图:选中频率列下所有数据(G1:G21),插入→柱形图→二维柱形图 6、修整柱形图 选中柱形图中的“柱子”→右键→设置数据系列格式: (1)系列选项,分类间距设置为0%; (2)边框颜色:实线,白色(你喜欢的就好) (3)关闭“设置数据系列格式”窗口 10 20 30 40 50 60 70 1234567891011121314151617181920 系列1 10 20 30 40 50 60 70 1234567891011121314151617181920 频数 频数

Excel有关正态分布函数和曲线图

Excel有关正态分布函数和曲线图 正态分布函数的语法是NORMDIST(x,mean,standard_dev,cumulative)cumulative为一逻辑值,如果为0则是密度函数,如果为1则是累积分布函数。如果画正态分布图,则为0。 例如均值10%,标准值为20%的正态分布,先在A1中敲入一个变量,假定-50,选中A列,点编辑-填充-序列,选择列,等差序列,步长值10,终止值70。然后在B1中敲入NORMDIST(A1,10,20,0),返回值为0.000222,选中B1,当鼠标在右下角变成黑十字时,下拉至B13,选中A1B13区域,点击工具栏上的图表向导-散点图,选中第二排第二个图,点下一步,默认设置,下一步,标题自己写,网格线中的勾去掉,图例中的勾去掉,点下一步,完成。图就初步完成了。下面是微调把鼠标在图的坐标轴上点右键,选坐标轴格式,在刻度中填入你想要的最小值,最大值,主要刻度单位(x轴上的数值间隔),y轴交叉于(y为0时,x多少)等等。确定后,正态分布图就大功告成了。 PS:标准正态分布的语法为NORMSDIST(z), 均值:分布的均值; 标准差:分布的标准差; 累积:若1,则为分布函数;若0,则为概率密度函数。 当均值为0,标准差为1时,正态分布函数NORMDIST即为标准正态分布函数NORMDIST。 例3已知考试成绩服从正态分布,,,求考试成绩低于500分的概率。解在Excel中单击任意单元格,输入公式: “=NORMDIST (500,600,100,1 )”, 得到的结果为0.158655,即,表示成绩低于500分者占总人数的 15.8655%。 例4假设参加某次考试的考生共有2000人,考试科目为5门,现已知考生总分的算术平均值为 360,标准差为40分,试估计总分在400分以上的学生人数。假设5门成绩总分近似服从正态分布。 解设表示学生成绩的总分,根据题意,,。 第一步,求。 在Excel中单击任意单元格,输入公式: “=NORMDIST (400,360,40,1 )”,得数为0.841345. 在Excel中单击任意单元格,输入公式: “ ”,得到的结果为400.000042,即 第二步,求总分在400分以上的学生人数。 在Excel中单击任意单元格,输入“=2000*0.841345”,得到结果为1682.689, 即在2000人中,总分在400分以上的学生人数约为1683人。

用Excel制作直方图和正态分布曲线图

用Excel2007制作直方图和正态分布曲线图 • •| •浏览:4284 •| •更新:2014-04-15 02:39 •| •标签:excel2007 • • • • • • • 分步阅读

在学习工作中总会有一些用到直方图、正态分布曲线图的地方,下面手把手教大家在Excel2007中制作直方图和正态分布曲线图 工具/原料 •Excel(2007) 1. 1 数据录入 新建Excel文档,录入待分析数据(本例中将数据录入A列,则在后面引用中所有的数据记为A:A); 2. 2 计算“最大值”、“最小值”、“极差”、“分组数”、“分组组距”,公式如图:

3. 3 分组 “分组”就是确定直方图的横轴坐标起止范围和每个小组的起止位置。选一个比最小值小的一个恰当的值作为第一个组的起始坐标,然后依次加上“分组组距”,直到最后一个数据值比“最大值”大为止。这时的实际分组数量可能与计算的“分组数”有一点正常的差别。类似如下图。 4. 4 统计频率 “频率”就是去统计每个分组中所包含的数据的个数。 最简单的方法就是直接在所有的数据中直接去统计,但当数据量很大的时候,这种方法不但费时,而且容易出错。 一般来说有两种方法来统计每个小组的数据个数:1.采用“FREQUENCY”函数;2.采用“COUNT IF”让后再去相减。 这里介绍的是“FREQUENCY”函数方法: “Date_array”:是选取要统计的数据源,就是选择原始数据的范围;

“Bins_array”:是选取直方图分组的数据源,就是选择分组数据的范围; 5. 5 生成“FREQUENCY”函数公式组,步骤如下: 1. 先选中将要统计直方图每个子组中数据数量的区域 6. 6

excell正态分布统计方法

excell正态分布统计方法 Excel正态分布统计方法 正态分布是统计学中非常重要的一种概率分布,也称为高斯分布。它在实际生活和科学研究中被广泛应用,用于描述许多自然现象和数据分布。在Excel中,我们可以使用一些函数和工具来进行正态分布的统计分析。 一、数据准备 在使用Excel进行正态分布统计之前,首先需要准备一组数据。这组数据可以是实际观测到的样本数据,也可以是由某种随机生成方法生成的数据。假设我们有一组身高数据,我们将使用这组数据来进行正态分布统计分析。 二、计算平均值和标准差 在进行正态分布统计时,首先需要计算数据的平均值和标准差。在Excel中,可以使用AVERAGE和STDEV函数来计算平均值和标准差。例如,如果我们有一组身高数据,可以使用以下公式计算平均值和标准差: 平均值:=AVERAGE(A1:A10) 标准差:=STDEV(A1:A10) 三、生成正态分布随机数 在进行正态分布统计时,我们通常需要生成一些符合正态分布的随

机数。在Excel中,可以使用NORM.INV函数来生成符合正态分布的随机数。该函数的参数包括期望值、标准差和一个0到1之间的随机数。例如,如果我们希望生成一个符合平均值为100,标准差为15的正态分布随机数,可以使用以下公式: = NORM.INV(RAND(), 100, 15) 四、绘制正态分布曲线图 除了计算统计指标和生成随机数外,我们还可以使用Excel绘制正态分布曲线图。通过绘制正态分布曲线图,我们可以更直观地了解数据的分布情况。在Excel中,可以使用插入图表功能来绘制正态分布曲线图。具体操作步骤如下: 1. 选中数据区域,包括平均值、标准差和生成的随机数。 2. 点击插入选项卡中的“统计图表”按钮。 3. 在弹出的图表选择对话框中,选择“散点图”。 4. 在散点图中,选择“平滑线”。 五、使用分布函数计算概率 除了生成随机数和绘制曲线图外,我们还可以使用Excel的分布函数来计算正态分布的概率。在Excel中,可以使用NORM.DIST和NORM.S.DIST函数来计算正态分布的概率密度和累积概率。具体操作步骤如下: 1. 使用NORM.DIST函数来计算指定数值的概率密度。该函数的参数包括数值、平均值和标准差。例如,要计算数值为x的概率密度,

Origin创建正态分布图

Origin 创建正态分布图 科研绘图中有时候需要一些统计数据,比如正态分布曲线,可以直观表现数据的分布情况, 那么如何操作呢?今天就来介绍一下。 以 origin 9.0 为例。 origin 统计图包括有直方统汁图Hixtogram 、方框统汁图(Box Chart)、概率直方图 (Histogram+Probabilties)多层直方图(Stacked Histogram)x QC 质量控制图(QC (X-Bar R) Chart)x 柏控图(Pareto Chart)^ 散点矩降统计图(Scatter Matrix)> 概率图(Probability Plot)、 标准 常态机率图(Q-QPIot)等。 选择菜单命令Plot -* Statistics -* Histogram,在打开的二级菜单中选择绘制方式进行绘图 或者点击下方的菜单栏。如下图所示。 图1菜单栏 直方统汁图(Histogram)用于对选圧数列统汁各区间段里数据的个数,它显示出变呈数据 组的频率分布。通过直方统计图(Histogram),可以方便地得到数据组中心、范用、偏度、 数据存在的轮廓和数据的多重形式。 创建直方统计图的方法为,在工作表窗口中选择一个或多个Y 列(或者其中的一段),然后 选择菜单命令Plot — Statistics — Histogram,或单击统计图工具栏中的按钮曲。下而结合 实例介绍直方统计图的绘制和立制。 Line ► Symbol ► Line ♦ Symbol ► Column/Bar/Pie ► Multi-Curve ► 3DXYY ► 3D Surface ► 3D Symbol/Bar/Vector ► 「 Statistics Area ► Contour ► Specialized ► Stock ► 3 Template Library... ysis Statistics Image Tools Format 令分100%^ : •要0科②昌轧 Box Chart Histogram | Histogram ♦ Probabilities Stacked Histograms QC (X bar R) Chart Pareto Chart-Binned Data Pareto Chart-Raw Data Scatter Matrix... Probability Plot... Q-Q Plot... 6 Line 7 Scatter 8 Y Error 9 Line Series 10 Double-Y $ Box Chart rrff Histogram 屋 Histogram + Probabilities ^Stacked Histograms BfcQC (X-bar R) Chart 1:二 Pareto Chart-Binned Data 、二 Pareto Chart-Raw Data QScatter Matrix... 艺 Probability Plot... Column Worksheet 1 Histogram 2 Column 3 Column ♦ Label 4 Line + Symbol 5 Zoom

解读正态概率图-正态概率图纸的秘密

解读正态概率图-正态概率图纸的秘密 本文是对解读Minitab的正态概率图一文中注解3-正态概率图图纸的说明 1上图的H0假设 1)上图单组数据为34,35,36,37,38,39,40,40,41,42,43,44,45,46共N=14个 2)计算得平均值为Xbar=40,标准差为s=3.741657 (图示为3.742) 3)上图的H0假设数据源自正态分布,相对H1就是非正态分布 4)基于正态分布的假设,所以根据样本数可以估计此正态分布的2个参数,平均值μ为40, 标准差σ为3.741657 2正态分布的特性x、z与累积分配函数 1)正态分布z值有人称z score,是正态分布的变量x,转换为标准正态分布时对应值为z, 关系是为z=(x-μ)/σ 2)正态分布下变量x,经转换为标准正态分布对应值z,就可经由正态分布数值表或软件等求得 x的累积分配函数(cdf),cdf一般统计符号写成F(x)= P(X≦x),P就是X≦x累积机率,正态概率图 的纵坐标Percent就是F(x) 3)鼠标移到Minitab蓝色直线上,就会出现如下图中的黄底的Percent与x数值表

4)Percent与x数值表说明 黄底的Percent与x数值表,Percent就是F(x),F(x)是指定的解于0与1之间,表上所示数值系为%,透过标准正态分布,就可求F(x)的反函数z,然后以公式x=zσ+μ得到x值 3正态性检定使用的正态概率图图纸 1)下表为手工计算,结果与minitab的Percent与x数值表相符的 作成蓝色参考值线的数据x、z、F(x)关系表如下表,表中系先指定F(x),就是表中Percent栏, 然后基于正态分布求x=F-1(x),再使用正态分布标准化公式计算z=(x-Xbar)/s

相关主题
相关文档
最新文档