统计学各章计算题公式及解题方法

统计学各章计算题公式及解题方法
统计学各章计算题公式及解题方法

统计学各章计算题公式

及解题方法

WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

统计学各章计算题公式及解题方法

第四章 数据的概括性度量

1. 组距式数值型数据众数的计算:确定众数组后代入公式计算: 下限公式:M 0=L +?1

?

1+?2

×d ;上限公式:M 0=U ??2

?

1+?2

×d ,其中,L 为众数所

在组下限,U 为众数所在组上限,?1为众数所在组次数与前一组次数之差,?2为众数所在组次数与后一组次数之差,d 为众数所在组组距 2. 中位数位置的确定:未分组数据为

n+1 2

;组距分组数据为

n 2

3. 未分组数据中位数计算公式:M e ={x (n+12

) ,n 为奇数

1

2

(x n 2

+x n 2

+1),n 为偶数

4. 单变量数列的中位数:先计算各组的累积次数(或累积频率)—根据位置公式确定中位数所在的组—对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在该组内均匀分布)

5. 组距式数列的中位数计算公式: 下限公式:M e =L +

n

2

?S m?1f m

×d ;上限公式:M e =U ?

n

2

+S m+1f m

×d ,其中,f m 为中

位数所在组的频数,s m?1为中位数所在组前一组的累积频数,s m+1为中位数所在组后一组的累积频数 6. 四分位数位置的确定:

未分组数据:{下四分位数:Q L =

n+1

4上四分位数:Q U =3(n+1)

4

;组距分组数据:{下四分位数:Q L =

n

4

上四分位数:Q U =3n 4 7. 简单均值:x?=x 1+x 2+?+x n

n

=∑x i

n i=1n

8. 加权均值:x?=M 1f 1+M 2f 2+?+M k f k

f 1+f 2+?+f k

=

∑M i f i

k i=1n

=∑M i k i=1f

i

n ,其中,M 1,M 2…M k 为各

组组中值

9. 几何均值(用于计算平均发展速度):x?=√x 1×x 2×…×x n n =√∏x i n i=1n

10. 四分位差(用于衡量中位数的代表性):Q D =Q U ?Q L 11. 异众比率(用于衡量众数的代表性):V r =

∑f i ?f m ∑f i

=1?f

m ∑f

i

12. 极差:未分组数据:R =max (x i )?min (x i );组距分组数据:R =最高组上限?最低组下限

13. 平均差(离散程度):未分组数据:M d =∑|x i ?x?|

n i=1n

;组距分组数据:

M d =∑|M i ?x?|k i=1?f i

n

14. 总体方差:未分组数据:σ2

=

∑(x i ?μ)

2N i=1N

;分组数据:σ2

=

∑(M i ?μ)2k i=1?f i

N

15. 总体标准差:未分组数据:σ=√

∑(x i ?μ)

2N i=1N ;分组数据:σ=√∑(M i

?μ)2k

i=1?f

i

N

16. 样本方差:未分组数据:s n?1

2

=

∑(x?x?)

2n i=1n?1

;分组数据:s n?1

2=

∑(M i ?x?)2?f i

k i=1n?1

17. 样本标准差:未分组数据:s n?1=√∑(x?x?)

2i=1n?1

;分组数据:s n?1=√

∑(M i ?x?)2?f i

k i=1n?1

18. 标准分数:z i =x i ?x?s

19. 离散系数:v s =

s x?

第七章 参数估计

1. Z α2

的估计值:

2. 不同情况下总体均值的区间估计:

其中,t α2

查p448 ,查找时需查n-1的数值

3. 大样本总体比例的区间估计:p ±z α2

p (1?p )n

4. 总体方差σ2

在1?α置信水平下的置信区间为:(n?1)s 2

χα/2

2≤σ2

(n?1)s 2

χ1?α/2

2

5. 估计总体均值的样本量:n =

(Z α/2)2

σ2

E 2

,其中,E 为估计误差

6. 重复抽样或无限总体抽样条件下的样本量:n =

(Z α/2)2

π(1?π)

E 2

,其中π为总体比例

第八章 假设检验

1. 总体均值的检验(σ2已知或σ2未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]

2. 总体均值检验(σ2未知,小样本,总体正态分布)

注:σ已知的拒绝域同大样本

3. 一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中π0为假设的总体比例)

4. 总体方差的检验(χ2检验)

5. z 统计量的参考数值

第九章 列联分析

1. 期望频数的分布(假定行变量和列变量是独立的)

一个实际频数 f ij 的期望频数 e ij ,是总频数的个数n 乘以该实际频数 f ij 落入第i 行 和第j 列的概率,即:e ij =n ·(r

i n )?(e

j n )=

r i c j n

2. χ2统计量(用于检验列联表中变量间拟合优度和独立性;用于测定两个分类变量之间的相关程度χ2

=

∑∑(f ij ?e ij )2

e

ij

c

j=1r i=1,自由度为(r ?1)(c ?1),f ij 为列联表中

第i 行 第j 列的实际频数,e ij 为列联表中第i 行 第j 列的期望频数 1) 检验多个比例是否相等

检验的步骤

提出假设H 0:?1 = ?2 = … = ?j ;H 1: ? 1 , ?2 , …,?j 不全相等;计算检验的统计量;进行决策:根据显着性水平?和自由度(r -1)(c -1)查出临界值

??2,若?2>??2,拒绝H0;若?2

2)利用样本数据检验总体比例是否等于某个数值

检验的步骤

提出假设H0:?1 = ,?2 = ,… ;H1:原假设的等式中至少有一个不成立;计

算检验的统计量;进行决:根据显着性水平?和自由度(r-1)(c-1)查出临界值

??2;若?2>??2,拒绝H0;若?2

3)检验列联表中的行变量与列变量之间是否独立

检验的步骤

提出假设H0:行变量与列变量独立;H1:行变量与列变量不独立;计算检验的统计量;进行决策:根据显着性水平?和自由度(r-1)(c-1)查出临界值??2,若

?2???2,拒绝H0;若?2

3.?相关系数:测度2?2列联表中数据相关程度;对于2?2 列联表,?系数的值在

0~1之间

φ=√χ2

,其中,n为实际频数总个数,即样本容量

n

4.列联相关系数(C系数)用于测度大于2?2列联表中数据的相关程度

,其中,C的取值范围是 0≤C<1;C = 0表明列联表中的两个变量独C=√χ2

χ2+n

立;C的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大;根据不同行和列的列联表计算的列联系数不便于比较

5.V相关系数

,其中,V 的取值范围是 0≤V≤1; V = 0表明列联表中的V=√χ2

n min[(r?1),(c?1)]

两个变量独立;V=1表明列联表中的两个变量完全相关;不同行和列的列联表计算的列联系数不便于比较;当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=φ

第十章方差分析

1.单因素方差分析的要点:

1)建立假设的表述方法:

H0:μ1=μ2=?=μk ,自变量对因变量没有显着影响

H1:μ1,μ2,…,μk不全相等,自变量对因变量有显着影响

2)决策:

i.根据给定的显着性水平α,在F分布表中查找与第一自由度df1=k?1、第

二自由df2=n?k相应的临界值 F α

ii.若F> F α,则拒绝原假设H0,表明均值之间的差异是显着的,所检验的因素对观察值有显着影响

iii.若F< F α,则不拒绝原假设H0,不能认为所检验的因素对观察值有显着影响

3)单因素方差分析表的结构:

2.方差分析中的多重比较(步骤):采用Fisher提出的最小显着差异方法,简写为

LSD

1)提出假设:

H0:μi=μj(第i个总体的均值等于第j个总体的均值)

H0:μi≠μj(第i个总体的均值不等于第j个总体的均值)

2)计算检验统计量:x?i?x?j

3)计算LSD:

LSD=tα

2√MSE(

1

n i

+

1

n j

)

4)决策:

若|x?i?x?j|>LSD,则拒绝H

0;若|x?i?x?j|

3.双因素方差分析:

1)无交互作用的双因素方差分析表结构:

2)有交互作用的双因素方差分析表结构:

4.关系强度测量:变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总

平方和(SST)的比例大小来反映,根据R2平方根R进行判断

R2=SSA(组间平方和)SST(总平方和)

第十一章一元线性回归1.样本的相关系数:

r=

∑(x?x?)(y?y?)

∑()2∑()2

=

n∑xy?∑x∑y

√n∑x2?(∑x)2?√n∑y2?(∑y)2

2.相关系数的显着性检验步骤:

1)提出假设:H0:ρ=0;H1:ρ≠0

2)计算检验统计量:t=|r|√ n?2

1?r2

~t(n?2)

3)确定α并决策:|t|>tα

2,拒绝H0;|t|

2

,不拒绝H0

3.一元回归模型:y=β0+β1x+?

4.一元线性回归方程形式:E(y)=β0+β1x,其中β0是直线方程在y轴上的截距,是

当x=0时,y的期望值;β1是直线的斜率,称为回归系数,表示当x每变动一个单位时y的平均变动值

5.一元线性回归中,估计的回归方程:y?=β?0+β?1x,其中β?0是估计的回归直线在y

轴上的截距,β?1是直线的斜率,它表示对于一个给定的x的值,y?是y的估计值,表示当x每变动一个单位时y的平均变动值

6. 根据最小二乘法求β

?0以及β?1的公式: {β?1=n ∑x i y i ?(∑x i n i=1)(∑y i n i=1)n i=1n ∑x i 2n i=1?(∑x i n i=1)

2β?0=y ??β1x?

7. 误差平方和之间的关系:∑(y i ?y ?)2=n i=1∑(y ?i ?y ?)2+∑(y i ?y

?i )2n i=1n i=1,即:SST(总平方和)=SSR(回归平方和)+SSE (残差平方和) 8. 判定系数(回归平方和占离差平方和的比例):R 2

=SSR

SST =∑(y ?i ?y ?)2n i=1∑(y i ?y

?)2n

i=1=1?

∑(y i ?y ?i )2n i=1∑(y

?i ?y ?)2n i=1

9. 估计标准误差(实际观察值与回归估计值离差平方和的均方根):

s y =√

∑(y i ?y

?i )2i=1n?2

=√SSE

n?2=√MSE

10. 线性关系的显着性检验:

1) 提出假设:H 0:β1=0,线性关系不显着;H 1:β1≠0,有线性关系 2) 计算检验统计量:F =SSR 1?SSE n?2?=MSR

MSE ~F (1,n ?2)

3) 确定显着性水平α,并根据分子自由度1和分母自由度n-2找出临界值F α 4) 决策:若F >F α,拒绝H 0;F

1) 提出假设:H 0:β1=0,线性关系不显着;H 1:β1≠0,有线性关系 2) 计算检验统计量:t =β

?1s β

?1~t (n ?2)

3) 确定显着性水平α并决策:若|t |>t α2?,拒绝H 0;|t |

y ?0±t α2?(n ?2)s y √1

n +(x 0?x?)2

∑(x i ?x?)

n i=1 其中,s y 为估计标准误差,(n ?2)为t α2?的自由

13. 预测区间估计:y 0在1?α置信水平下的预测区间:

y?0±tα2?(n?2)s y√1+1

n +(x0?x?)2

∑(x i?x?)2

n

i=1

14.回归分析表的结构:

15.几点说明:

1)判定系数R2测度了回归直线对观测数据的拟合程度,若所有观测点都落在直线

上,残差平方和SSE=0,R2=1,拟合是完全的

2)在一元线性回归中,相关系数r实际上是判定系数R2的平方根

3)相关系数r与回归系数β?1是同号的

第十三章时间序列预测和分析

1.环比增长率:报告期增长率与前一期水平之比减1:

G i=

Y i

Y i?1

?1 (i=1,2,Λ,n)

2.定基增长率:报告期水平与某一固定时期水平之比减1

G i=Y i

Y0

?1 (i=1,2,Λ,n),其中, Y0表示用于对比的固定基期的观察值

3.平均增长率:序列中各逐期环比值(也称环比发展速度) 的几何平均数减1后的结

果(描述现象在整个观察期内平均增长变化的程度)

G?=√Y1

Y0

×

Y2

Y1

×Λ×

Y n

Y n?1

n

?1=√Y n Y0

n

?1,G?表示平均增长率,n为环比值的个数

1)当时间序列中的观察值出现0或负数时,不宜计算增长率

2)在有些情况下,不宜单纯就增长率论增长率,要注意增长率与绝对水平的结合

分析

4.时间序列预测的步骤:

1)确定时间序列所包含的成分,也就是确定时间序列的类型

2)找出适合此类时间序列的预测方法

3)对可能的预测方法进行评估,以确定最佳预测方案

4)利用最佳预测方案进行预测

5.均方误差:通过平方消去正负号后计算的平均误差,用MSE表示

MSE=∑(Y i?F i)2

n

i=1

n,其中Y i为观测值,F i为预测值

6.简单平均法:根据过去已有的t期观察值来预测下一期数值。设时间序列已有的

其观察值为Y1,Y2,…,Y t,则t+1期的预测值F t+1为:

F t+1=1

t

(Y1+Y2+Λ+Y t)=

1

t

∑Y

i,

t

i=1

有了t+1的实际值,则预测误差为:e t+1=Y t+1?F t+1 t+2期的预测值为:

F t+2=

1

t+1

(Y1+Y2+Λ+Y t+Y t+1)=

1

t+1

∑Y

i,

t+1

i=1

7.简单移动平均法:将最近k期的数据加以平均,作为下一期的预测值

设移动间隔为k(1

Y?t=Y t?k+1+Y t?k+2+Λ+Y t?1+Y t

k

t+1期的预测值为:

F t+1=Y?t=

Y t?k+1+Y t?k+2+Λ+Y t?1+Y t

预测误差用均方误差表示:MSE=误差平方和

误差个数

8.指数平滑法(一次):以一段时期的预测值与观察值的线性组合作为t+1的预测

值,其预测模型为:

F t+1=αY t+(1?α)F t,其中α为平滑系数(0<α<1),在开始计算时,没有第1

个时期的预测值F1,通常可以设F1等于1期的实际观察值,即F1=Y1

9.线性趋势预测:

1) 一般形式:Y

?t =a +bt ,Y ?t 为时间序列趋势值,t 为时间标号,a 为趋势线在Y 轴上的截距,b 为趋势线的斜率,表示时间t 变动一个单位时观察值的平均变动数量

2) 由最小二乘法求得:

{b =

n ∑tY?∑t ∑Y

n ∑t ?(∑t )a =Y

??bt 如令∑t

=0,则{

b =∑tY

(∑t )a =Y

?3) 预测误差可用估计标准误差来衡量:

s Y =√

∑(Y i ?Y ?i )

2n i=1n?m

m 为趋势方程中未知常数的个数

10. 指数曲线:用于描述以几何级数递增或递减的现象

1) 一般形式:Y

?t =ab t , a 、b 为未知常数,若b>1,增长率随着时间t 的增加而增加,若b<1,增长率随着时间t 的增加而降低,若a>0,b<1,趋势值逐渐降低到以0为极限

2) 将一般形式转换为对数直线形式,由最小二乘法求得:

{

∑lg Y =n lg a +lg b ∑t

∑t lg Y =lg a ∑t +lg b ∑t 2

3) 求出lg a 及lg b ,取反对数

11. 修正指数曲线:描述初期增长迅速,随后增长率逐渐降低,最终则K 为增长极限

现象

1) 一般形式:Y

?t =K +ab t , K 、a 、b 为未知常数,K>0,a ≠0,0

m 个时期;令趋势值的三个局部总和分别等于原序列观察值的三个局部总和 i.

设观察值的三个局部总和分别为:S 1;S 2;S 3,S 1=∑Y

t m t=1;S 2=∑Y

t 2m t=m+1;S 3=∑Y t 3m t=2m+1

ii. 根据三和法求得:

{

b =(S 3?S 2S 2?S 1)

1

m

a =(S 2?S 1)b?1

b (b m ?1)2K =1m [S 1?ab (b m ?1)b?1]

12. Gompertz 曲线:描述初期增长缓慢,以后逐渐加快,当达到一定程度后,增长率

又逐渐下降,最后接近一条水平线现象

1) 一般形式:Y ?t =Ka b t ,K 、a 、b 为未知常数;K>0,0

?t =lg K +(lg a )b t ii.

仿照修正指数曲线的常数确定方法,求出lg a 、lg K 、b ;取lg a 和lg K 的反对数求得a 和K

令:S 1=∑lg Y

t m t=1,S 2=∑lg Y t 2m t=m+1,S 3=∑lg Y t 3m

t=2m+1 则有:

{

b =

(S 3?S 2S 2?S 1

)1

m lg a =(S 2?S 1)b?1

b (b ?1)lg K =1m [S 1?ab (b m ?1)b?1

?lg a]

第十四章 指数

1. 简单综合指数:(误差太大)

I p =∑p 1∑p 0

(质量指标);I q =∑q

1∑q 0

(数量指标)

2. 加权综合指数:

1) 拉氏数量指标指数(同度量因素固定在基期): I q =∑q 1p

0∑q 0p 0

2) 帕氏质量指标指数(同度量因素固定在报告期):I p =∑q 1p

1∑q 1p 0

3. 指数体系:式中∑q 1p 1为报告期总量指标,∑q 0p 0为基期总量指标,q 为数量指

标,p 为质量指标

∑q1p1∑q0p0=∑q1p0

∑q0p0

×∑q1p1

∑q1p0

因素影响差额之间的关系:∑q1p1?∑q0p0=(∑q1p0?∑q0p0)+(∑q1p1?∑q1p0)

4.居民消费价格指数:

I p=∑iW

∑W

,式中i代表规格品个体指数或各层的类指数,W为相应的消费支出比重5.股票价格指数:

今日股价指数=今日市价总值

基日市价总值

×100

相关主题