统计数据的描述

统计数据的描述
统计数据的描述

第二章统计数据的描述

在对一组统计数据的分布变化进行深入研究之前,我们首先研究一组数据的特征。为了比较精确地描述一组统计资料的特征,需要使用一些统计指标来描述它。一组数据的统计特征通常包括以下四个方面:

1、集中趋势,也称作中心位置。即表示一组数据的中心位置的数据点是在什么地方,也就是数据位置的度量。

2、离散性。即一组数据的分散程度,也就是数据散布的范围。

3、倾斜度。一组数据所描述的曲线既可以是左右对称的,也可能是倾斜的,即通过曲线最高点的垂线把曲线分为两半,是左右对称还是并不对称。

4、尖削度。这就是一组数据所描绘的曲线顶部的峰态特征。根据一组数据所描绘的曲线顶部既可能是尖峰状的,也可能是扁平状的。即使根据两组数据所描绘的曲线具有相同的中心位置和离散程度,但它们的尖削度也可能是不一样的。

在管理科学中,我们最感兴趣的常常是数据的集中趋势和离散程度,本章就主要介绍度量这两个特征的统计量。

第一节数据集中趋势的度量

一组数据的集中趋势通常用平均数、中位数和众数等来表示。这些统计量均称为平均指标。它表明同类社会经济现象的各单位的某一数量指标在一定时间、地点等条件下达到的平均水平。

平均指标的特点是将一组数据中各个数据之间的差异抽象化,用一个指标来代表各个数据的一般水平,它反映了一组数据中各个数据的典型水平、中心位置或集中趋势。

一、平均数

管理统计中常用的平均数有算术平均数、调和平均数和几何平均数等几种。但这里我们主要介绍算术平均数。算术平均数又称均值,常用x来表示。根据计算方法的不同,算术平均数又可分为简单算术平均数和加权算术平均数。

1、简单算术平均数

简单算术平均数的计算公式如下:

x

x x x

N

x

N

N

i

i

N =

+++

==

∑121

式中:N 是数据的个数;

21

22

x i 是各数据的观察值。

2、加权算术平均数

如一组数据是已经经过分组的,共有N 组。x i 为各相应组中数据的观察值或每一组的中心值,f i 是观察值为x i 的相应组中数据出现的次数,又称为频率,则可以采用加权平均法来计算其均值,其公式为

x x f x f x f f f f x

f f

N N

N

i

i

i N

i

i N =++++++=

==∑∑11221211

式中:x i 是各相应组中数据的观察值;

f i 是观察值为x i 的相应组中数据出现的次数,又称为频率; N 是组数。

均值在度量数组的集中化趋势的统计量中是应用最广的。这是因为任何一组数据都有一个平均数,而且只有一个平均数。计算平均数时全部数据都参加运算,因此,用它来反映一组数据的集中化趋势的代表性比较好。但是它也有缺点,主要的问题是因为平均数是根据一组数据中的全部数据来计算的,会受到资料中那些没有代表性的极端值的影响。因此,有时在计算平均数时先剔除个别缺乏代表性的特殊值所得到的结果可能会具有更大的代表性。

二、中位数

将数据的各观察值x x x n 12,,, 按其数值由小到大的顺序排列后,处于数列中间位置上的观察值称为中位数。如果数据个数为奇数,则中位数数值恰为(n+1)/2位置上的数值。如果数据个数为偶数,则中位数数值为最中间位置上两个数值的平均值。

中位数不是一个数组中各数据的算术平均值,它主要受一组数据中的中间位置上的数值的影响,用中位数来反映一个数组中各数据大小的一般水平并不很精确。但中位数计算简单,与平均数相比,中位数不受数据中两端异常的特殊值的影响。从这个意义上它可以作为数据平均指标的代表值。对于数据分布不很规则的情况,中位数是度量数据集中趋势的较合理的统计量之一。同时,无论是分组资料还是不分组资料都可以计算中位数。 但是中位数也有它的缺点。对于有些问题,中位数的处理比平均数更为复杂。在计算中位数之前必须把数据依次加以排列,这对于观察值个数很多的资料来说是很费时的。

对于未分组的数据的中位数的求法如上所述比较简单,但对于按分段形式组织起来的分组数据,要计算出中位数一般就比较繁琐。下面我们就介绍分组数据的中位数的求法。我们先用对于未分组数据的方法找出中位数所在的组,然后再在假设中位数所在组的所有数据的标志值都均匀分布的前提下,运用线性插值公式来求出中位数。

23

如图2-1所示,设L 和U 分别为中位数所在的组,即累计频数达到

n 2

的组的下限和上限.则组距d=U-L 。设f m 为中位数所在组的频数。F m -1为中位数所在组前一组的累计频数,F m 为中位数所在组的累计频数,n 为各组单位数的总和。则中位数M e 即为

M L n F

f d e m m

=+-?-21

M U F n f d e m m

=--?2

事实上,从图2-1可以看出,中位数处于累计频率为

n

2

一组的上,下限之间的某一数值。这一数值是中位数所在组的下限加上按一定比例分配所得的那段组距。

令 M e =L+X

因为 x

d n F

f m m

=--21 x n F

f d m m

=-?-21

所以 M L n F

f d e m m

=+-?-21

同样可得: M U F n f d e m m

=-

-?2

。 以"1,2,3,3,3,5,6"为例,按张厚粲老师的求法: 第一,有奇数个数,取第二个"3"; 第二,"3'的取值范围是2.5---3.5;

第三,因为有三个"3",固将"3"的取值范围"2.5---3.5"分为三份,即:"2.5---2.83","2.83---3.16","3.16---3.5"; 第四,第二个"3"的真值落在"2.83--3.16"之间;

第五,第二个"3"的估计值就应为(2.83+3.16)/2=2.995; 第六,那么这一组数据的中位数就应为"2.995"

三、众数

众数是指数据中出现次数最多的那个变量值。众数并没有通常意义上的“平均”的含义。但众数在数据中出现的次数最频繁,说明该数值在数据中最具有代表性,因而从另一个侧面反映了数据的集中化趋势。同中位数一样,众数不会受到资料中极端值的影响。但并不是每一组数据都是具有众数的,只有当数组中不同数值的数据出现的次数具有明显的差异时,才有众数可言。对于分组数据而言,众数常常依赖于分组的情况,分组数改变时,众数可能就要有较大的变化,稳定性较差。众数也可能是不唯一的。

在管理实践中,有时没有必要计算算术平均数,只需要掌握最普遍、最常见的标志值就能说明社会经济现象的一般水平,这时就可以采用众数。例如,要反映市场上某种商品的一般价格水平,价格中的众数就是最好的代表值。要预测市场上对服装或鞋子大小的需求情况时往往也需要应用众数。但众数作为度量中心趋势的指标并不象平均数和中位数那样应用得广泛,而且对于有的资料而言众数根本就不存在。

例1-1。对某城市某商品在不同商店中的零售价格调查所得到的观察值如下:

195,186,179,168,156,113,148,179,179

请分别计算出反映价格平均水平的统计指标。

这是一个未经分组的数组,可计算得到这组数据的算术平均数:

x=(195+186+179+168+156+113+148+179+179)/9=167

把原数组按从小到大排列以后,就得到:

113,148,156,168,179,179,179,186,195

该数组共有9个数据,按中位数的定义应当取第5个数据为中位数。于是得到其中位数为179,同时我们发现众数也是179。

例1-2。根据对某单位300名职工每月平均存款数的调查,结果如表1-1所示。请分别计算出反映平均存款水平的统计指标。

根据上述分组数据,我们以组中值作为各组的代表值,计算其平均值如下:x=(50*39+150.5*63+250.5*98+350.5*41+450.5*26+

550.5*23+650.5*6+750.5*3+900.5*1)/300=272.6

这一分组数据的中位数应落在第155个观察值与第156个观察值之间,显然是落在

表2-1:某单位300名职工每月平均存款数组别频率

0-100 39

101-200 63

201-300 98

301-400 41

401-500 26

24

501-600 23

601-700 6

700-800 3

801-1000 1

201-300的一组内,我们把这一组称为中位数组。但是中位数的具体值还是应通过在这一组内的插值来确定。计算如下:

M

=201+(150-102)*99/98=300-(200-150)*99/98=249.5

e

这一分组数据的众数就是201-300一组,称为众数组。

综上所述,当数组的分布比较有规则,不存在极端的数值时,用均值来代表整个数组的集中趋势效果较好,而在数组包含有极端值时,则用中位数更合适,众数尽管稳定性最差,但有时却十分方便而有用。

第二节数据离散趋势的度量

仅仅用集中趋势来描述数据的分布特征是不够的。我们经常碰到平均数相同的两组数据其离散程度可以是相当不同的。一组数据的分布可能比较集中,差异较小,则平均数的代表性较好。另一组数据可能比较分散,变异较大,则平均数的代表性就较差。离散趋势的度量常用标志变异指标来描述,常用的指标有极差、平均差、方差和标准差。

一、极差

极差又称全距,是指一组数据的观察值中的最大值和最小值之差。用公式表示为:

极差=M.D=最大观察值-最小观察值

极差的计算简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。两组数据的最大值和最小值可能相同,于是它们的极差相等,但是离散的程度可能相当不一致。由此可见,极差往往不能反映一组数据的实际离散程度,实际上极差所反映的是一组数据的最大的离散值。

二、平均差

平均差是指一组数据中的各数据对平均数的离差绝对值的平均数。一组数据中的各数据对平均数的离差有正有负,其和为零,因此平均差必须用离差的绝对值来计算。平均差愈大,表示数据之间的变异程度愈大,反之则变异程度愈小。

平均差通常用字母A.D来表示,计算公式为:

25

26

A.D =x x n

-∑

三、方差和标准差(σ2和σ)

平均差用绝对值来进行度量,虽然避免了正负离差求和时相互抵消,但不便于运算。因此,通常用方差来度量一组数据的离散性。方差通常用字母σ

来表示。对于未分组的数据其计算公式为: ()σ

x x n

-∑2

对于分组数据,计算公式为: ()σ

x x f

f

-∑∑2

为了使统计量的单位同观察值的单位相一致,通常将方差开平方,即得到标准差σ,标准差也称为均方差。其计算公式相应地变为:

(

)

σ=

-∑x x n

2

由定义可知,方差和标准差所反映的是一组数据对其均值为代表的中心的某种偏离程度。而且我们可以猜测到,标准差(或方差)较小的分布一定是比较集中在均值附近的,反之则是比较分散的。标准差的缺点是计算起来比较麻烦。标准差也是根据全部数据来计算的,因此,资料中的极端值对它的影响要比极差小一些,但是它也会受到极端值的一定的影响。标准差的计算要比平均差方便,因此,标准差是用得最经常的描述数组离散趋势的量。

在统计中我们通常用σ2

和σ分别表示总体(总体的具体概念将在下章中讨论)的方差和标准差。当总体中的个体数很大时,我们希望通过抽样,用样本标准差来估计总体的标准差时,就需要计算样本的方差和标准差。但为了使估计更正确,我们需要对相应的计算公式作一调整。此时,样本的方差和标准差分别记作S 2

和S ,其计算公式如下: ()

S

x x

n 2

2

1

=

--∑

()

S x x n =

--∑2

1

值得注意的是,在计算样本的方差和标准差时分母是n-1,而不是n ,其

原因我们在第三章中将加以说明。

标准差的概念在统计上具有重要的作用。对于任意一个总体,在确定了标准差以后就可以精确地确定总体中的单位落在平均数两侧某个范围内的频率

大小。统计学中的契比雪夫定理证明,不管是何种形状的分布,至少有75%的数值落在分布的平均数加减两个标准差的范围内。至少有89%的数值落在平均数加减三个标准差的范围内。对于正态分布的情形,在下一章中我们将介绍数据落在某个特定范围内概率的更精确的结果。

四、离散系数

标准差是表示所有数据离散性大小的一个绝对值,其度量单位与原数据的度量单位相同。因此,标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较显然就不合适了。例如,如果一个总体的标准差是20,均值是10。如果另有一个总体的标准差是30,均值是3000。如果直接用标准差

来进行比较,后一总体的标准差是前一总体标准差的1.5倍,似乎前一总体的分布集中而后一总体的分布分散。但前一总体用标准差来衡量的各数据的差异量是其均值的两倍。后一总体用标准差来衡量的各数据差异是其均值的1/100,是微不足道的。可见用标准差与均值的比值大小来衡量不同总体数据的分散程度更合理。统计上把这一比例称为离散系数。离散系数是一个表示标准差相对于平均数的大小的相对量,即标准差相对于均值的百分比,其计算公式如下:

离散系数=σ

μ

?100%

其中:σ为数组的标准差;

μ为数组的平均值。

例1-3。某公司过去10年间的年利润如表1-2所示。要求计算出反映该公司历年利润波动的指标。

表2-2:某公司过去10年的利润表单位:百万元

年份1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 利润163 280 170 190 285 290 300 350 390 400 该公司过去十年利润波动的最大值就是极差,结果为:

M.D=400-163=237

为了计算平均差,我们先计算均值:

x=(163+280+170+190+285+290+300+350+390+400)/10=281.8

于是,平均差为:

A.D=(118.8+1.8+111.8+91.8+3.2+8.2+18.2+68.2+108.2+118.2)/10

=64.84

方差为:

σ2=(118.8+1.8+111.8+91.8+3.2+8.2+18.2+68.2+108.2+118.2)/10

=(14113.44+3.24+12499.24+8427.24+10.24+67.24+331.24+4651.24

+11707.24+13971.24)/10=6578.16

27

标准差为:

=81.10

练习题

要求:(1)计算中位数,(2)计算全距和平均差,(3)计算算术平均数和标准差。

2、某快递公司抽样调查包裹的结果如下:

单只包裹重量(公斤)邮包数量

0 ~9.99 28

10.0~19.99 25

20.0~29.99 14

30.0~39.99 8

40.0~49.99 4

50以上 1

计算单只包裹的平均重量和中位数。

3、某工厂12名工人完成同一工件所需的时间(分钟)为:

31 34 29 32 35 38 34 30 29 32 31 26

试计算这些数据的众数,中位数,平均数,极差,方差和标准差。

28

29

相关文档
最新文档