统计学各章计算题公式及解题方法
统计学各章计算题公式
及解题方法
WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】
统计学各章计算题公式及解题方法
第四章 数据的概括性度量
1. 组距式数值型数据众数的计算:确定众数组后代入公式计算: 下限公式:M 0=L +?1
?
1+?2
×d ;上限公式:M 0=U ??2
?
1+?2
×d ,其中,L 为众数所
在组下限,U 为众数所在组上限,?1为众数所在组次数与前一组次数之差,?2为众数所在组次数与后一组次数之差,d 为众数所在组组距 2. 中位数位置的确定:未分组数据为
n+1 2
;组距分组数据为
n 2
3. 未分组数据中位数计算公式:M e ={x (n+12
) ,n 为奇数
1
2
(x n 2
+x n 2
+1),n 为偶数
4. 单变量数列的中位数:先计算各组的累积次数(或累积频率)—根据位置公式确定中位数所在的组—对照累积次数(或累积频率)确定中位数(该公式假定中位数组的频数在该组内均匀分布)
5. 组距式数列的中位数计算公式: 下限公式:M e =L +
n
2
?S m?1f m
×d ;上限公式:M e =U ?
n
2
+S m+1f m
×d ,其中,f m 为中
位数所在组的频数,s m?1为中位数所在组前一组的累积频数,s m+1为中位数所在组后一组的累积频数 6. 四分位数位置的确定:
未分组数据:{下四分位数:Q L =
n+1
4上四分位数:Q U =3(n+1)
4
;组距分组数据:{下四分位数:Q L =
n
4
上四分位数:Q U =3n 4 7. 简单均值:x?=x 1+x 2+?+x n
n
=∑x i
n i=1n
8. 加权均值:x?=M 1f 1+M 2f 2+?+M k f k
f 1+f 2+?+f k
=
∑M i f i
k i=1n
=∑M i k i=1f
i
n ,其中,M 1,M 2…M k 为各
组组中值
9. 几何均值(用于计算平均发展速度):x?=√x 1×x 2×…×x n n =√∏x i n i=1n
10. 四分位差(用于衡量中位数的代表性):Q D =Q U ?Q L 11. 异众比率(用于衡量众数的代表性):V r =
∑f i ?f m ∑f i
=1?f
m ∑f
i
12. 极差:未分组数据:R =max (x i )?min (x i );组距分组数据:R =最高组上限?最低组下限
13. 平均差(离散程度):未分组数据:M d =∑|x i ?x?|
n i=1n
;组距分组数据:
M d =∑|M i ?x?|k i=1?f i
n
14. 总体方差:未分组数据:σ2
=
∑(x i ?μ)
2N i=1N
;分组数据:σ2
=
∑(M i ?μ)2k i=1?f i
N
15. 总体标准差:未分组数据:σ=√
∑(x i ?μ)
2N i=1N ;分组数据:σ=√∑(M i
?μ)2k
i=1?f
i
N
16. 样本方差:未分组数据:s n?1
2
=
∑(x?x?)
2n i=1n?1
;分组数据:s n?1
2=
∑(M i ?x?)2?f i
k i=1n?1
17. 样本标准差:未分组数据:s n?1=√∑(x?x?)
2i=1n?1
;分组数据:s n?1=√
∑(M i ?x?)2?f i
k i=1n?1
18. 标准分数:z i =x i ?x?s
19. 离散系数:v s =
s x?
第七章 参数估计
1. Z α2
的估计值:
2. 不同情况下总体均值的区间估计:
其中,t α2
查p448 ,查找时需查n-1的数值
3. 大样本总体比例的区间估计:p ±z α2
√
p (1?p )n
4. 总体方差σ2
在1?α置信水平下的置信区间为:(n?1)s 2
χα/2
2≤σ2
≤
(n?1)s 2
χ1?α/2
2
5. 估计总体均值的样本量:n =
(Z α/2)2
σ2
E 2
,其中,E 为估计误差
6. 重复抽样或无限总体抽样条件下的样本量:n =
(Z α/2)2
π(1?π)
E 2
,其中π为总体比例
第八章 假设检验
1. 总体均值的检验(σ2已知或σ2未知的大样本)[总体服从正态分布,不服从正态分布的用正态分布近似]
2. 总体均值检验(σ2未知,小样本,总体正态分布)
注:σ已知的拒绝域同大样本
3. 一个总体比例的检验(两类结果,总体服从二项分布,可用正态分布近似)(其中π0为假设的总体比例)
4. 总体方差的检验(χ2检验)
5. z 统计量的参考数值
第九章 列联分析
1. 期望频数的分布(假定行变量和列变量是独立的)
一个实际频数 f ij 的期望频数 e ij ,是总频数的个数n 乘以该实际频数 f ij 落入第i 行 和第j 列的概率,即:e ij =n ·(r
i n )?(e
j n )=
r i c j n
2. χ2统计量(用于检验列联表中变量间拟合优度和独立性;用于测定两个分类变量之间的相关程度χ2
=
∑∑(f ij ?e ij )2
e
ij
c
j=1r i=1,自由度为(r ?1)(c ?1),f ij 为列联表中
第i 行 第j 列的实际频数,e ij 为列联表中第i 行 第j 列的期望频数 1) 检验多个比例是否相等
检验的步骤
提出假设H 0:?1 = ?2 = … = ?j ;H 1: ? 1 , ?2 , …,?j 不全相等;计算检验的统计量;进行决策:根据显着性水平?和自由度(r -1)(c -1)查出临界值
??2,若?2>??2,拒绝H0;若?2?2,不拒绝H0
2)利用样本数据检验总体比例是否等于某个数值
检验的步骤
提出假设H0:?1 = ,?2 = ,… ;H1:原假设的等式中至少有一个不成立;计
算检验的统计量;进行决:根据显着性水平?和自由度(r-1)(c-1)查出临界值
??2;若?2>??2,拒绝H0;若?2?2,不拒绝H0
3)检验列联表中的行变量与列变量之间是否独立
检验的步骤
提出假设H0:行变量与列变量独立;H1:行变量与列变量不独立;计算检验的统计量;进行决策:根据显着性水平?和自由度(r-1)(c-1)查出临界值??2,若
?2???2,拒绝H0;若?2?2,不拒绝H0
3.?相关系数:测度2?2列联表中数据相关程度;对于2?2 列联表,?系数的值在
0~1之间
φ=√χ2
,其中,n为实际频数总个数,即样本容量
n
4.列联相关系数(C系数)用于测度大于2?2列联表中数据的相关程度
,其中,C的取值范围是 0≤C<1;C = 0表明列联表中的两个变量独C=√χ2
χ2+n
立;C的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大;根据不同行和列的列联表计算的列联系数不便于比较
5.V相关系数
,其中,V 的取值范围是 0≤V≤1; V = 0表明列联表中的V=√χ2
n min[(r?1),(c?1)]
两个变量独立;V=1表明列联表中的两个变量完全相关;不同行和列的列联表计算的列联系数不便于比较;当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=φ
第十章方差分析
1.单因素方差分析的要点:
1)建立假设的表述方法:
H0:μ1=μ2=?=μk ,自变量对因变量没有显着影响
H1:μ1,μ2,…,μk不全相等,自变量对因变量有显着影响
2)决策:
i.根据给定的显着性水平α,在F分布表中查找与第一自由度df1=k?1、第
二自由df2=n?k相应的临界值 F α
ii.若F> F α,则拒绝原假设H0,表明均值之间的差异是显着的,所检验的因素对观察值有显着影响
iii.若F< F α,则不拒绝原假设H0,不能认为所检验的因素对观察值有显着影响
3)单因素方差分析表的结构:
2.方差分析中的多重比较(步骤):采用Fisher提出的最小显着差异方法,简写为
LSD
1)提出假设:
H0:μi=μj(第i个总体的均值等于第j个总体的均值)
H0:μi≠μj(第i个总体的均值不等于第j个总体的均值)
2)计算检验统计量:x?i?x?j
3)计算LSD:
LSD=tα
2√MSE(
1
n i
+
1
n j
)
4)决策:
若|x?i?x?j|>LSD,则拒绝H
0;若|x?i?x?j| 3.双因素方差分析: 1)无交互作用的双因素方差分析表结构: 2)有交互作用的双因素方差分析表结构: 4.关系强度测量:变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总 平方和(SST)的比例大小来反映,根据R2平方根R进行判断 R2=SSA(组间平方和)SST(总平方和) 第十一章一元线性回归1.样本的相关系数: r= ∑(x?x?)(y?y?) ∑()2∑()2 = n∑xy?∑x∑y √n∑x2?(∑x)2?√n∑y2?(∑y)2 2.相关系数的显着性检验步骤: 1)提出假设:H0:ρ=0;H1:ρ≠0 2)计算检验统计量:t=|r|√ n?2 1?r2 ~t(n?2) 3)确定α并决策:|t|>tα 2,拒绝H0;|t| 2 ,不拒绝H0 3.一元回归模型:y=β0+β1x+? 4.一元线性回归方程形式:E(y)=β0+β1x,其中β0是直线方程在y轴上的截距,是 当x=0时,y的期望值;β1是直线的斜率,称为回归系数,表示当x每变动一个单位时y的平均变动值 5.一元线性回归中,估计的回归方程:y?=β?0+β?1x,其中β?0是估计的回归直线在y 轴上的截距,β?1是直线的斜率,它表示对于一个给定的x的值,y?是y的估计值,表示当x每变动一个单位时y的平均变动值 6. 根据最小二乘法求β ?0以及β?1的公式: {β?1=n ∑x i y i ?(∑x i n i=1)(∑y i n i=1)n i=1n ∑x i 2n i=1?(∑x i n i=1) 2β?0=y ??β1x? 7. 误差平方和之间的关系:∑(y i ?y ?)2=n i=1∑(y ?i ?y ?)2+∑(y i ?y ?i )2n i=1n i=1,即:SST(总平方和)=SSR(回归平方和)+SSE (残差平方和) 8. 判定系数(回归平方和占离差平方和的比例):R 2 =SSR SST =∑(y ?i ?y ?)2n i=1∑(y i ?y ?)2n i=1=1? ∑(y i ?y ?i )2n i=1∑(y ?i ?y ?)2n i=1 9. 估计标准误差(实际观察值与回归估计值离差平方和的均方根): s y =√ ∑(y i ?y ?i )2i=1n?2 =√SSE n?2=√MSE 10. 线性关系的显着性检验: 1) 提出假设:H 0:β1=0,线性关系不显着;H 1:β1≠0,有线性关系 2) 计算检验统计量:F =SSR 1?SSE n?2?=MSR MSE ~F (1,n ?2) 3) 确定显着性水平α,并根据分子自由度1和分母自由度n-2找出临界值F α 4) 决策:若F >F α,拒绝H 0;F 1) 提出假设:H 0:β1=0,线性关系不显着;H 1:β1≠0,有线性关系 2) 计算检验统计量:t =β ?1s β ?1~t (n ?2) 3) 确定显着性水平α并决策:若|t |>t α2?,拒绝H 0;|t | y ?0±t α2?(n ?2)s y √1 n +(x 0?x?)2 ∑(x i ?x?) n i=1 其中,s y 为估计标准误差,(n ?2)为t α2?的自由 度 13. 预测区间估计:y 0在1?α置信水平下的预测区间: y?0±tα2?(n?2)s y√1+1 n +(x0?x?)2 ∑(x i?x?)2 n i=1 14.回归分析表的结构: 15.几点说明: 1)判定系数R2测度了回归直线对观测数据的拟合程度,若所有观测点都落在直线 上,残差平方和SSE=0,R2=1,拟合是完全的 2)在一元线性回归中,相关系数r实际上是判定系数R2的平方根 3)相关系数r与回归系数β?1是同号的 第十三章时间序列预测和分析 1.环比增长率:报告期增长率与前一期水平之比减1: G i= Y i Y i?1 ?1 (i=1,2,Λ,n) 2.定基增长率:报告期水平与某一固定时期水平之比减1 G i=Y i Y0 ?1 (i=1,2,Λ,n),其中, Y0表示用于对比的固定基期的观察值 3.平均增长率:序列中各逐期环比值(也称环比发展速度) 的几何平均数减1后的结 果(描述现象在整个观察期内平均增长变化的程度) G?=√Y1 Y0 × Y2 Y1 ×Λ× Y n Y n?1 n ?1=√Y n Y0 n ?1,G?表示平均增长率,n为环比值的个数 1)当时间序列中的观察值出现0或负数时,不宜计算增长率 2)在有些情况下,不宜单纯就增长率论增长率,要注意增长率与绝对水平的结合 分析 4.时间序列预测的步骤: 1)确定时间序列所包含的成分,也就是确定时间序列的类型 2)找出适合此类时间序列的预测方法 3)对可能的预测方法进行评估,以确定最佳预测方案 4)利用最佳预测方案进行预测 5.均方误差:通过平方消去正负号后计算的平均误差,用MSE表示 MSE=∑(Y i?F i)2 n i=1 n,其中Y i为观测值,F i为预测值 6.简单平均法:根据过去已有的t期观察值来预测下一期数值。设时间序列已有的 其观察值为Y1,Y2,…,Y t,则t+1期的预测值F t+1为: F t+1=1 t (Y1+Y2+Λ+Y t)= 1 t ∑Y i, t i=1 有了t+1的实际值,则预测误差为:e t+1=Y t+1?F t+1 t+2期的预测值为: F t+2= 1 t+1 (Y1+Y2+Λ+Y t+Y t+1)= 1 t+1 ∑Y i, t+1 i=1 7.简单移动平均法:将最近k期的数据加以平均,作为下一期的预测值 设移动间隔为k(1 Y?t=Y t?k+1+Y t?k+2+Λ+Y t?1+Y t k t+1期的预测值为: F t+1=Y?t= Y t?k+1+Y t?k+2+Λ+Y t?1+Y t 预测误差用均方误差表示:MSE=误差平方和 误差个数 8.指数平滑法(一次):以一段时期的预测值与观察值的线性组合作为t+1的预测 值,其预测模型为: F t+1=αY t+(1?α)F t,其中α为平滑系数(0<α<1),在开始计算时,没有第1 个时期的预测值F1,通常可以设F1等于1期的实际观察值,即F1=Y1 9.线性趋势预测: 1) 一般形式:Y ?t =a +bt ,Y ?t 为时间序列趋势值,t 为时间标号,a 为趋势线在Y 轴上的截距,b 为趋势线的斜率,表示时间t 变动一个单位时观察值的平均变动数量 2) 由最小二乘法求得: {b = n ∑tY?∑t ∑Y n ∑t ?(∑t )a =Y ??bt 如令∑t =0,则{ b =∑tY (∑t )a =Y ?3) 预测误差可用估计标准误差来衡量: s Y =√ ∑(Y i ?Y ?i ) 2n i=1n?m m 为趋势方程中未知常数的个数 10. 指数曲线:用于描述以几何级数递增或递减的现象 1) 一般形式:Y ?t =ab t , a 、b 为未知常数,若b>1,增长率随着时间t 的增加而增加,若b<1,增长率随着时间t 的增加而降低,若a>0,b<1,趋势值逐渐降低到以0为极限 2) 将一般形式转换为对数直线形式,由最小二乘法求得: { ∑lg Y =n lg a +lg b ∑t ∑t lg Y =lg a ∑t +lg b ∑t 2 3) 求出lg a 及lg b ,取反对数 11. 修正指数曲线:描述初期增长迅速,随后增长率逐渐降低,最终则K 为增长极限 现象 1) 一般形式:Y ?t =K +ab t , K 、a 、b 为未知常数,K>0,a ≠0,0 m 个时期;令趋势值的三个局部总和分别等于原序列观察值的三个局部总和 i. 设观察值的三个局部总和分别为:S 1;S 2;S 3,S 1=∑Y t m t=1;S 2=∑Y t 2m t=m+1;S 3=∑Y t 3m t=2m+1 ii. 根据三和法求得: { b =(S 3?S 2S 2?S 1) 1 m a =(S 2?S 1)b?1 b (b m ?1)2K =1m [S 1?ab (b m ?1)b?1] 12. Gompertz 曲线:描述初期增长缓慢,以后逐渐加快,当达到一定程度后,增长率 又逐渐下降,最后接近一条水平线现象