【原创】R语言检验独立性:卡方检验(Chi-square test)和费舍尔精确检验数据分析报告论文(含代码数据)

【原创】R语言检验独立性:卡方检验(Chi-square test)和费舍尔精确检验数据分析报告论文(含代码数据)
【原创】R语言检验独立性:卡方检验(Chi-square test)和费舍尔精确检验数据分析报告论文(含代码数据)

咨询QQ:3025393450

有问题百度搜索“”就可以了

欢迎登陆官网:https://www.360docs.net/doc/b116213744.html,/datablog

R语言检验独立性:卡方检验(Chi-square test)和费舍尔精确检验数据分析报告

来源:大数据部落| 有问题百度一下“”就可以了

统计测试最常见的领域之一是测试列联表中的独立性。在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验。

什么是列联表?

列联表提供关于两个分类变量的测量的整数计数。最简单的列联表是一个

2 × 22×2 频率表,由两个变量产生,每个变量有两个级别:

给定这样一个表格,问题是第1组是否表现出与第2组相比的观测频率。这些组代表因变量,因为它们依赖于自变量的观察。请注意,列联表必须是一种常见的误解2 × 22×2; 它们可以具有任意数量的维度,具体取决于变量显示的级别数。尽管如此,应避免对具有多个维度的列联表进行统计检验,因为除其他原因外,解释结果将具有挑战性。

数据集

咨询QQ:3025393450

有问题百度搜索“”就可以了

欢迎登陆官网:https://www.360docs.net/doc/b116213744.html,/datablog

要研究列联表的测试,我们将使用warpbreaks数据集:

data(warpbreaks)

head(warpbreaks)

## breaks wool tension## 1 26 A L## 2 30 A L## 3 54 A L## 4 25 A L## 5 70 A L## 6 52 A L

这是一个包含来自纺织行业的三个变量的数据集:中断描述了羊毛中断的次

数描述了经过测试的羊毛类型张力∈ { L ,M,H}张力∈{大号,中号,H}给出了施加在螺纹上的张力(低,中或高)。数据集中的每一行表示单个织机的测量值。为了解释不同织机的可变性,对羊毛和张力的每种组合进行了9次测量,数据集总共包含9 ? 2 ? 3 = 549?2?3=54 观察结果。

分析目标

我们想确定一种类型的羊毛在不同程度的紧张情况下是否优于另一种羊毛。为了研究我们是否可以找到一些差异的证据,让我们来看看数据:

为了研究链断裂数的差异,让我们可视化数据:

咨询QQ:3025393450

有问题百度搜索“”就可以了

欢迎登陆官网:https://www.360docs.net/doc/b116213744.html,/datablog

从图中我们可以看出,总体而言,羊毛B与较少的断裂相关联。羊毛A似乎特别低劣,因为低张力。

转换为列联表

为了获得列联表,我们首先需要总结两种类型的羊毛和三种类型的张力的不同织机的断裂。

## wool tension breaks## 1 A L 401## 2 A M 216## 3 A H 221## 4 B L 254## 5 B M 259## 6 B H

169

然后我们使用xtabs(发音为交叉表)函数来生成列联表:

## tension## wool L M H## A 401 216 221## B 254 259 169

现在,df我们有了应用统计测试所需的结构。

咨询QQ:3025393450

有问题百度搜索“”就可以了

欢迎登陆官网:https://www.360docs.net/doc/b116213744.html,/datablog

统计检验

用于确定来自不同组的测量值是否独立的两种最常见的测试是卡方检验(χ2χ2测试)和费舍尔的精确测试。请注意,如果测量结果配对,则应使用McNemar 测试(例如,可以识别单个织机)。

皮尔逊的卡方检验

该χ2χ2test是一种非参数测试,可应用于具有各种维度的列联表。测试的名称源自χ2χ2分布,即独立标准正态变量的平方分布。这是测试统计的分布χ2χ2测试

## [1] 7.900708e-07

由于p值小于0.05,我们可以在5%显着性水平上拒绝测试的零假设(断裂的频率独立于羊毛)。根据df一个人的条目,然后可以声称羊毛B比羊毛A明显更好(相对于经纱断裂)。

调查Pearson残差

另一种方法是考虑测试的卡方值。该chisq.test函数提供卡方值的Pearson残差(根)。与由平方差异产生的卡方值相反,残差不是平方的。因此,残差反映了观测值超过预期值(正值)或低于预期值(负值)的程度。在我们的数据集中,正值表示比预期更多的链断裂,而负值表示更少的断点:

## tension## wool L M H## A 2.0990516

-2.8348433 0.4082867## B -2.3267672 3.1423813 -0.4525797

残留物表明,与羊毛A相比,羊毛B的低张力和高张力断裂比预期的要少。然而,对于中等张力,羊毛B比预期的断裂更多。再次,我们发现,整体羊毛B 优于羊毛A.残留物的值也表明羊毛B对于低张力(残差为2.1),高张力(0.41)和中等张力严重(- 2.8)。然而,残留物有助于我们识别羊毛B的问题:它对

相关主题
相关文档
最新文档