非参数统计列联表卡方检验
非参数统计期末大作业
一、Wilcoxon符号秩检验
某个公司为了争夺竞争对手的市场,决定多公司重新定位进行宣传。在广告创意中,预计广告投放后会产生效果。一组不看广告组和一组看广告,抽取16位被调查者,让起给产品打分。现有数据如下
分析广告效应是否显著。
1、手算
建立假设:
H0:广告效应不显著
H1:广告效应显著
不看广告组记为x,看广告组记为y。
检验统计量计算表
由表可知:
T+=1+4+5+2.5=12.5
T-=7+2.5+6+8=23.5
根据n=8,T+和T-中较大者T-=23.5,查表得,T+的右尾概率为0.230到0.273,在显著性水平α=0.05下,P值显然较大,故没有理由拒绝原假设,表明广告效应不显著。
2、Spss
在spss中输入八组数据(数据1):
选择非参数检验中的两个相关样本检验
对话框中选择Wilcoxon,输出如下结果(输出1):
由上表,负秩为4,正秩也为4,同分的情况为0,总共8。负秩和为12.5,正秩和为23.5,与手算结果一致
Test Statistics b
看广告- 不看广
告
Z -.771a
Asymp. Sig. (2-tailed) .441
a. Based on negative ranks.
b. Wilcoxon Signed Ranks Test
由上表,Z为负,说明是以负秩为基础计算的结果,其相应的双侧渐进显著性结果为0.441,明显大于0.05,因此在α=0.05的显著性水平下,没有理由拒绝原假设,即表明广告效应不显著,与手算的结论一致。
3、R语言(R语言1)
输入语句:
x=c(62,83,96,99,71,60,97,100)
y=c(87,92,90,86,94,95,82,91)
wilcox.test(x,y,exact=F,cor=F)
输出结果:
Wilcoxon rank sum test
data: x and y
W = 33, p-value = 0.9164
alternative hypothesis: true location shift is not equal to 0
由输出结果可知,P=0.9164,远大于α=0.05,因此没有理由拒绝原假设,即广告效应并不显著,与以上结果一致。
二、Wald-Wolfowitz游程检验
有低蛋白和高蛋白两种料喂养大白鼠,以比较它们对大白鼠体重的增加是否有显著不同的影响,为此对m=10,n=10只大白鼠分别喂养低蛋白和高蛋白两种饲料,得增重量X,Y(单位:g)的表如下:
给定显著性水平α=0.05,试用游程检验法检验两种饲料的影响有无显著差异。
1、手算
建立假设:
H0:两种饲料对大白鼠无显著差异
H1:两种饲料对大白鼠有显著差异
将X,Y的数据按从小到大混合排列,得X,Y的混合样本序列:
Y Y Y X Y Y X X X Y Y Y Y Y X X X X X X 故得游程总数U=6,m=10,n=10,查表得,U=6的概率为0.019,由于是双侧检验,对于显著性水平α=0.05,对应的P值为2×0.019=0.038< o.o5,因此拒绝原假设,即表明两种饲料对大白鼠有显著差异。
2、Spss
在spss中输入数据(数据2)
在非参数检验中选择两个独立样本检验
对话框:
在Define Groups输入1和2。
在Test Type选中Wald-Wolfowitz runs。
输出结果如下(输出2):
Frequencies
分组N
增重量 1 10
2 10
Total 20
Test Statistics b,c
Number of
Runs Z Exact Sig. (1-tailed)
增重量Minimum Possible 6a-2.068 .019
Maximum Possible 8a-1.149 .128
a. There are 2 inter-group ties involving 4 cases.
b. Wald-Wolfowitz Test
c. Grouping Variable: 分组
由上表,P值与手算结果一致,因此也拒绝原假设,即表明两种饲料对大白鼠有显著差异。
三、Kolmogorov-Smirnov检验
为了研究两家电信运营商套餐在目标市场的年龄维度上的分布是否相同,该电信运营公司开展了一个社会调查活动。
数据如下:
两种通信套餐的用户年龄
分析两种套餐的目标市场年龄的分布是否存在显著性差异。
1、手算
建立假设:
H0:两种套餐的目标市场年龄分布不存在显著差异
H1:两种套餐的目标市场年龄分布存在显著差异
检验统计量D的计算表
由上表,找出检验统计量D=max ()()x S x S 21-=7/9,m=7,n=9,mnD=7×9×7
9=49,查表得,相应的P 值为0.008,在5%的显著性水平
上,P 值足够小,因此拒绝原假设,表明两种套餐的目标市场年龄分布存在显著差异。 2、 spss
输入数据(数据3)
在非参数检验中选择两个独立样本检验:
对话框:
运营商1和2分类的变量输入到Grouping Variable,在Define Groups输入1和2。
在Test Type选中Kolmogorov-Smirnov。
在点Exact时打开的对话框中可以选择精确方法(Exact)。
输出结果如下(输出3);
Frequencies
运营商N
年龄 1 7
2 9
Total 16
Test Statistics a
年龄
Most Extreme Differences Absolute .778
Positive .000
Negative -.778 Kolmogorov-Smirnov Z 1.543 Asymp. Sig. (2-tailed) .017 Exact Sig. (2-tailed) .008 Point Probability .006
a. Grouping Variable: 运营商
由上表:精确计算的双尾P 值为0.008,与手算结果一致,表明两种套餐的目标市场年龄分布存在显著差异。
四、k个独立样本的Kruskal-Wallis检验
为检测四种防护服对人脉搏的影响,找来20人试穿,每种有5人试穿,测量试穿者的脉搏,得到以下表格:
问:穿四种防护服测得的脉搏有无差异。
1、手算
建立假设:
H0:测得的脉搏没有显著差异
H1:测得的脉搏有显著差异
脉搏等级整理如下:
计算检验统计量H:
H=
12
N(N+1)
∑
R j2
n j
?3(N+1)
k
j=1
=
12
20×21
×
57.52+212+642+67.52
5
?3×21
=70.854?63
=7.854
查表:自由度df=3,显著性水平α=0.05,相对应的临界值卡方=7.82。
显然,H=7.854>卡方=7.82,所以拒绝原假设,表明四种防护服对脉搏的影响有显著差异。
2、spss
输入20个观测值(数据4)
在非参数检验中选择k个独立样本检验
防护服分组定义为1到4
操作如下图:
输出结果如下(输出4):
Ranks
防护服N Mean Rank 脉搏 1 5 11.50
2 5 4.20
3 5 12.80
4 5 13.50
Total
20
由上表,卡方与手算十分接近,拒绝原假设,即表明四种防护服对脉搏的影响有显著性差异。
3、中位数检验
20个数,中位数为115.5,
整理每个总体中大于或小于该中位数的观测值个数,如下表:
计算Q检验量
Q=20[22
5×10×2+
32
5×10
×2+
12
5×10
×2+
42
5×10
×2?1]
=4
Q统计量小于卡方=7.82,没有理由拒绝原假设,表明四种防护服对脉搏的影响没有显著差异。
Spss:
在test type中选择中位数,输出结果如下:
Test Statistics b
脉搏
N 20
Median 115.50
Chi-Square 4.000a
df 3
Asymp. Sig. .261
a. 8 cells (100.0%) have expected frequencies less than 5. The minimum expected
cell frequency is 2.5.
b. Grouping Variable: 防护服
卡方值为4,与手算结果一致,不拒绝原假设,即表明四种防护服对脉搏的影响没有显著性差异
综上,两种算法的结果不一致!!?????
4、R语言
输入语句(R语言2):
x=c(130,111,114,123,115,104,116,106,98,104,123,119,115,120,11 7,133,128,130,112,110)
y=c(1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,4,4,4,4,4)
kruskal.test(x,y)
输出结果:
> kruskal.test(x,y)
Kruskal-Wallis rank sum test
data: x and y
Kruskal-Wallis chi-squared = 7.878, df = 3, p-value = 0.0486 与以上的手算和KS 检验法结果一致,拒绝原假设,表明四种防护服防护服对脉搏的影响存在显著差异。
五、列联表卡方检验
一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,得样本数据如下表所示,要求检验地区与原料质量之间有无依赖关系。
1、手算:
建立假设:
01H H :地区与原料质量无关:地区与原料质量相关
2
r
c
ij ij i=1j=1ij
(f -e )Q==19.82
e df=(r-1)(c-1)=4
∑∑
查表得,20.05
=9.49χ,由于Q=19.82>2
0.05=9.49χ,因此拒绝原假设,即认为地区与原料质量相关。
2、SPSS :
操作:Data ——Weight Cases
Analyze ——Descriptive Statistics ——Crosstabs
第七章 列联表分析
第七章列联表分析 7.1 列联表(Crosstabs)分析的过程 7.2 列联表的实例分析 7.1 列联表 (Crosstabs) 分析的过程 列联表分析的过程是对两个变量之间关系的分析方法。被分析的变量可以是定类变量也可以是定序变量。系统是通过生成列联表对两个变量进行列联表分析的。 列联表分析的功能可以通过下述操作来实现。 图7-1 列联表分析对话框 1.打开列联表分析对话框 执行下述操作: Analyze→Descriptive→Crosstabs 打开Crosstabs 对话框如图7-1 所示。 2.确定列联分析的变量 从左侧的源变量窗口中选择两个定类变量或定序变量分别进入Row(s)(行)窗口和Column(s)(列)窗口。进入Row(s)窗口的变量的取值将作为行的标志输出,而进入Column(s)窗口的变量的取值将作为列的标志输出。Display clustered bar charts 是在输出结果中显示聚类条图。Suppress table 是隐藏表格,如果选择此项,将不输出R×C 列联表。 3.选择统计分析内容 单击statistics 按钮,打开statistics 对话框,如图7-2 所示。
图7-2statistics 对话框 下面介绍该对话框中的选项和选项栏的内容: (1)Chi-square 是卡方(X2)值选项,用以检验行变量和列变量之间是否独立。适用于定类变量和定序变量。 (2)Correlations 是皮尔逊(Pearson)相关系数r 的选项。用以测量变量之间的线性相关。适用于定序或数值变量(定距以上变量)。 (3)Nominal 是定类变量选项栏。选项栏中的各项是当分析的两个变量都为定类变量时可以选择的参数。 1)Contingency coefficient:列联相关的C 系数,由卡方系数修正而得。 2) Phi and Cramer's V:列联相关的V 系数,由卡方系数修正而得。 3)Lambda:λ系数。 4)Uncertainty Coefficient:不定系数。 (4)Ordinal 是定序变量选项栏。选项栏中的各项是当分析的两个变量都为定序变量时可以选择的参数。 1)Gramma:Gramma 等级相关系数。 2)Somers’d:Somers 等级相关d 系数。 3)Kendall’s tau-b:肯得尔等级相关tau-b 系数。 4)Kendall’s tau-c:肯得尔等级相关tau-c 系数。 (5)Nominal by Interval 选项栏中的Eta 是当一个变量为定类变量,另一个变量为数值变量时,测量两个变量之间关系的相关比率。 系统默认状态是不输出上述参数。如需要可自行选择。上述选择做完以后,单击Continue 返回到Crosstabs 对话框。 4.确定列联表内单元格值的选项 单击Cells(单元格)按钮,打开Cell Display 对话框,如图7-3 所示。
非参数统计列联表卡方检验
非参数统计期末大作业 一、Wilcoxon符号秩检验 某个公司为了争夺竞争对手的市场,决定多公司重新定位进行宣传。在广告创意中,预计广告投放后会产生效果。一组不看广告组和一组看广告,抽取16位被 调查者,让起给产品打分。现有数据如下 不看广告62 83 96 99 71 60 97 100 看广告87 92 90 86 94 95 82 91 分析广告效应是否显著。 1、手算 建立假设: H0:广告效应不显著 H1:广告效应显著 不看广告组记为x,看广告组记为y。 X Y D=x-y |D| |D|的秩D的符号 62 87 -25 25 7 - 83 92 -9 9 2.5 - 96 90 6 6 1 + 99 86 13 13 4 + 71 94 -23 23 6 - 60 95 -35 35 8 - 97 82 15 15 5 + 100 91 9 9 2.5 + 由表可知: T+=1+4+5+2.5=12.5 T-=7+2.5+6+8=23.5 根据n=8,T+和T-中较大者T-=23.5,查表得,T+的右尾概率为0.230到0.273,在显著性水平下,P值显然较大,故没有理由拒绝原假设,表明广 告效应不显著。
2、Spss 在spss中输入八组数据(数据1): 选择非参数检验中的两个相关样本检验 对话框中选择Wilcoxon,输出如下结果(输出1): Ranks N Mean Rank Sum of Ranks 看广告- 不看广告Negative Ranks 4a 3.12 12.50
Positive Ranks 4b 5.88 23.50 Ties 0c Total 8 a. 看广告< 不看广告 b. 看广告> 不看广告 c. 看广告= 不看广告 由上表,负秩为4,正秩也为4,同分的情况为0,总共8。负秩和为12.5,正秩和为23.5,与手算结果一致 Test Statistics b 看广告- 不看广 告 Z -.771a Asymp. Sig. (2-tailed) .441 a. Based on negative ranks. b. Wilcoxon Signed Ranks Test 由上表,Z为负,说明是以负秩为基础计算的结果,其相应的双侧渐进显著性结果为0.441,明显大于0.05,因此在的显著性水平下,没有理由拒绝原假设,即表明广告效应不显著,与手算的结论一致。 3、R语言(R语言1) 输入语句: x=c(62,83,96,99,71,60,97,100) y=c(87,92,90,86,94,95,82,91) wilcox.test(x,y,exact=F,cor=F) 输出结果: Wilcoxon rank sum test data: x and y W = 33, p-value = 0.9164 alternative hypothesis: true location shift is not equal to 0 由输出结果可知,P=0.9164,远大于 =0.05,因此没有理由拒绝原假设,即广告效应并不显著,与以上结果一致。
8.2 多个独立样本R×C列联表资料的卡方检验
第八章c 2 检验 二、多个独立样本R×C列联表资料的c 2 检验
表 8-5 三种不同治疗方法治疗慢性支气管炎的疗效 组别 有效 无效 合计 有效率% A 药 35 5 40 87.50 B 药 20 10 30 66.67 C 药 7 25 32 21.88 合计 62 40 102 60.78 (24.31) ( ) A T T c - = ? 2 2 2 2 11 (1)32.74 R C i j i j i j A n n m c == =-= ?? 2.1 频率的比较
表 8-5 三种不同治疗方法治疗慢性支气管炎的疗效 组别 有效 无效 合计 有效率% A 药 35 5 40 87.50 B 药 20 10 30 66.67 C 药 7 25 32 21.88 合计 62 40 102 60.78 2.1 多个独立样本频率的比较 (24.31) ( ) A T T c - = ? 2 2 2 2 11 (1)32.74 R C i j i j i j A n n m c == =-= ? ? c 2 (A, B ) =4.419,P =0.036,P ’=0.108
2.2 独立样本频率的比较 表 8-6 儿童急性白血病患者与成年人急性白血病患者的血型分布 分组 A 型 B 型 O 型 AB 型 合计 儿童 30 38 32 12 112 成人 19 30 19 9 77 合计 49 68 51 21 189 c 2 0.75,3 =1.21,P >0.75 2 2 11 (1)0.695 R C i j i j i j A n n m c == =-= ??