卡方检验应用

卡方检验应用
卡方检验应用

第八章记数数据统计法—卡方检验法

知识引入

在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。

卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。

在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。

第一节卡方拟合性检验

一、卡方检验的一般问题

卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:

这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况:

卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

拟合性检验的零假设是观测次数与理论次数之间无差异。其中理论次数的计算一般是根据某种理论,按一定的概率通过样本即实际观测次数来计算。这里所说的某种理论,可能是经验规律,也可能是理论分布。确定理论次数是卡方检验的关键。

拟合性检验自由度的确定与两个因素有关:一是分类的项数,二是在计算理论次数时,所用统计量或约束条件的个数,这两者之差即为自由度。由于一般情况下,计算理论次数时只用到“总数”这一统计量,所以自由度一般是分类的项数减1。但在对连续数据分布的配合度检验中,常常会用数据个数、平均数、标准差等统计量来计算理论次数,所以此时的自由度应从总分类项中减去更多的个数。按照检验中理论次数的定义不同,拟合性检验有以下集中应用。

二、检验无差假设

所谓无差假设,是指各项分类的实计数之间没有差异,也就是说各项分类之间的概率相等(均匀分布),因此理论次数完全按概率相等的条件来计算。即任一项的理论次数都等于总数/分类项数。因此自由度也就等于分类项数减1。

【例1】随机地将麻将色子抛掷300次,检验该色子的六个面是否均匀。结果1-6点向上的次数依次是,43,49,56,45,66,41。

解:每个类的理论次数是300/6 = 50,代入公式:

因此,在0.05的显著性水平下,可以说这个色子的六面是均匀的。

【例2】随机抽取60名高一学生,问他们文理要不要分科,回答赞成的39人,反对的21人,问对分科的意见是否有显著的差异。

解:如果没有显著的差异,则赞成与反对的各占一半,因此是一个无差假设的检验,于是理论次数为60/2=30,代入公式:

所以对于文理分科,学生们的态度是有显著的差异的。

三、检验假设分布的概率

这里的假设分布可以是经验性的,也可以是某理论分布。公式中所需的理论次数则按照这里假设的分布进行计算。

【例3】国际色觉障碍讨论会宣布,每12个男子中,有一个是先天性色盲。从某校抽取的132名男生中有4人是色盲,问该校男子色盲比率与上述比例是否有显著差异?

解:按国际色觉障碍讨论会的统计结果,132人应该有132/12=11人是色盲,剩下的121人非色盲,代入公式有:

因此,在0.05和显著性水平下,该校男子色盲比率与国际色觉障碍讨论会的统计结果有显著差异,显然根据比例可知该校的色盲率小于国际色觉障碍讨论会的统计结果。

【例4】在英语四级考试中,某学生做对了80个四择一选择题中的28题,现在要判断该生是否是完全凭猜测做题。

解:假如该生完全凭猜测做题,那么平均而言每道题做对的可能性是1/4,因此80个题中平均而能做对80/4=20题,代入公式有:

因此,该生可能会做一些题。

四、连续变量分布的拟合性检验

对于一组连续数据,经常需要对其次数分布究竟服从哪种理论分布进行探讨,这一方面的主要应用就是在前面经常所提到的总体正态性检验。首先要将测量数据整理成次数分布表和画出次分布图,并据此选择恰当的理论分布。这些理论分布是多种多样的,例如有正态分布、均匀分布等。然后根据选择的理论分布计算出理论次数,就可以计算卡方统计量并进行显著性检验了。若差异显著,说明所选择的理论分布不合适,可以再选一个理论分布进行检验,直至完全拟合。当然有时也只需检验是否与某确定的理论分布相符,如正态性检验(参见教材有关内容)。

对连续随机变量分布的吻合性检验,关键的步骤是计算理论次数与确定自由度。理论次数的计算是按所选理论分布规律,并利用观测数据的有关统计量来计算各分组(次数分布表中)理论次数。自由度则是用分组数减去计算理论次数时所用统计量的数目。

这种拟合性检验计算较为繁琐,不做要求。

五、小理论次数时的连续性校正

卡方检验中,当某分类理论次数小于5时,卡方统计量不能很好地满足卡方分布,此时需要对卡方统计量进行校正,称为卡方的连续性校正,其公式如下:

尽管采用此方法校正后,卡方统计量能较为接近卡方分布,不过我们仍然建议在实际中最好增大样本的容量,尽量减少出现这种不大服从理论分布的情况。

第二节独立性检验

卡方检验还可以用于检验两个或两个以上因素(各有两项或以上的分类)之间是否相互影响的问题,这种检验称为独立性检验。例如要讨论血型与性格的关系,血型有A、B、AB、O四类,性格采用心理学上的A型性格来划分,即有A型和B型两种,每个人可能是它们之间交叉所形成的8种类型中的一种,那么倒底它们之间有不有关系,就可以用卡方独立性检验。

卡方独立性检验用于检验两个或两个以上因素(各有两项或以上的分类)之间是否相互影响的问题。所谓独立,即无关联,互不影响,就意味着一个因素各个分类之间的比例关系,在另一个因素的各项分类下都是相同的,比如在血型与性格关系中,如果A型性格人群中各血型的比例关系,与B型性格人群中各血型的比例关系相同,就可能说血型与性格相互独立,当然这里的“两者比例相同”在统计的意义下,应表述为“两比例差异不超过误差范围”,因为就算总体之间相互独立,收集到两个比例完全相同的样本的可能是很小很小的,甚至是不可能的。相反,若一个因素各个分类之间的比例关系,在另一个因素的各项分类下是不同的,则它们之间相关。假如A型性格中A型血的比例高于B型性格中A型血的比例,而且达到显著水平,那么就可以说血型与性格之间相关,不相互独立。

卡方独立性检验的零假设是各因素之间相互独立。因此理论次数的计算也是基于这一假设,具体计算时,采用列联表的方式,后面将举例说明。

【例1】某校对学生课外活动内容进行调查,结果整理成下表,表中彩色格子里的数是原始数据的汇总数,括号内的数是理论次数(是按下面将要介绍的原理计算得来的),此外的是原始数据。

由于所有学生参加三项活动的比例是27:18:52,因此如果课外活动的选择与性别没有关系的话,男女生参加这三项活动的比例也应是这同一比例,而男女各自的人数可以计算,所以每格内的理论次数的计算方法如下:

男生中

参加体育活动的理论人数:55×27/97=15.3

参加文娱活动的理论人数:55×18/97=10.2

参加阅读活动的理论人数:55×52/97=29.5

女生中

参加体育活动的理论人数:42×27/97=11.7

参加文娱活动的理论人数:42×18/97= 7.8

参加阅读活动的理论人数:42×52/97=22.5

我们将行列的小计和分别用f x和f y来表示,总人数用N 来表示时,上述计算理论次数的方法可以表示为:

fe ij = fx i× fy j/N

所以,卡方独立性检验的公式可以表示如下,其中最后一个式子比较便于计算,fxy 表示每格的原始数据。

由于在计算理论次数时,用了按每个因素分类的小计和(fx 和fy,其个数分别记为R 个和C 个),和总和N ,而总和又可由按每个因素分类的小计和计算得来,因此若从总分类个数R×C中减去R+C,则将总和重复减去了,因此要补 1 个自由度回来,所以最终独立性检验的自由度表示为:

上述例题最终计算得:

或者:

这两个公式的计算结果有一点点差异,这完全是计算误差即四舍五入引起的。

df = (3-1)(2-1) = 2,而χ20.05(2) = 5.99,所以在0.05的显著性水平下,拒绝零假设,即可以认为性别与课外活动内容有关联,或者说男女生在选择课外活动上存在显著的差异。

四格表独立性检验

对于两个都只作两项分类的因素,它们的数据整理成的是一个2×2 的表格,一般称为四格表,对于四格表教材里给出了一个更简洁的公式:

公式中,a、b、c、d的规定要求是a和d必须呈对角线。该公式的含义非常明确,即当对角线单元格中的次数差异越大时,卡方检验越容易显著,自然也就意味着两变量间的关联越密切。掌握了一般的R*C表计算后,四格表计算相对简单地多。这里不再展开。

注意,在独立性检验中,同样存在某格的理论次数小于等于 5 的问题,如同拟合性检验中一样,我们仍然建议在实际中最好增大样本的容量,尽量减少出现这种不大服从理论分布的情况。

此外,在独立性检验中,若拒绝了零假设,即各因素之间有关联,则如同方差分析中仅判定了存在交互作用一样,只是一个总体的结果,并不能回答具体关联的形式的问题。如果各因素之间独立,则到此为止,若各因素间有关联,还应该作进一步的分析,具体搞清楚各变量的次数间是如何关联的。对此卡方检验有一些办法,但不如参数检验中那样严格。卡方独立性检验一般也仅限于两变量间的关联考察,对于多个名义型变量,往往采用分拆一个变量分别进行独立性检验的办法,然后试图整合多次检验的结果。这种做法就显得更牵强一些。

品质相关

卡方检验既然是用来解决变量间关联性的,则也可以构造和积差相关或等级相关系数一样的相关程度的度量,称为品质相关。常用的品质相关有以下几种:

1、Φ相关系数

Φ相关只适用于四格表,它要求两变量是不同性质的。Φ相关的公式实际上是根据四格表的卡方值变换而来的,通过变换使得其取值大约在正负1之间,这样便于联系一般的相关系数的含义进行解释。在卡方检验一节,我们曾讲到卡方值的大小反映了实际次数与理论次数之间差异的大小,而独立性检验中的理论次数是根据两变量独立的假设计算出来的,因此卡方值的大小也就反映了两变量距独立有多远,离独立越远就越相关,因此卡方值本身就反映了两变量间相关的程度。Φ相关的计算公式如下:

Φ相关系数依分子的正负号可取正负值。不过,所有的品质相关几乎都不是独立构造的,而都是对卡方检验中卡方统计量的变换。因此实际上,只要进行了卡方独立性检验,则这两步过程就一次解决了。计算品质相关系数只是为了更好地理解两变量间关系的密切程度。

2、列联相关C系数

列联相关实际上是将Φ相关的适用情况从四格表扩展到一般的列联表。列联相关公式的来历也基本上与Φ相关相同。列联相关公式为:

该系数的取值也在0和1之间,不会取到1。与使用Φ相关一样,使用列联相关之前,最好先检验两变量是否相关,只有两变量相关时,这一系数才有意义。

阅读材料

班上要选班长,有两名候选人A和B,他们获得的票数分别是45和49。班主任认为票数悬殊太小,不足以说明B更受欢迎,因此决定让二者各任一周班长,两周后再进行公开投票。B很不服气,认为老师偏心,请你为他主持公道,你能不能用统计学的知识来说明这次投票的结果?先想一想

这个案例可以用卡方分布来检验两名候选人的票数是否有显著差异。

得出的显著性水平是0.68,显然,二者所得票数确实无显著差异,老师的决策是对的。

第八章卡方检验

第八章 2 χ 检验 一、教学大纲要求 (一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2 χ检验。 (1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2 χ检验。 3. 行?列表的2 χ检验。 (二) 熟悉内容 频数分布拟合优度的2 χ检验。 (三) 了解内容 1.2 χ分布的图形。 2.四格表的确切概率法。 二、教学内容精要 (一) 2 χ检验的用途 2χ检验(Chi-square test )用途较广,主要用途如下: 1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2 χ检验的基本思想 1.2 χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2 χ值不应该很大,若实际计算出的2 χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑ -= T T A 2 2 χ,A 为实际频数(Actual Frequency ),T 为理论频数 (Theoretical Frequency )。四格表2 χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2 χ值是一致的。 (三)率的抽样误差与可信区间 1.率的抽样误差与标准误 样本率与总体率之间存在抽样误差,其度量方法: n p ) 1(ππσ-= ,π为总体率,或 (8-1) n p p S p ) 1(-= , p 为样本率; (8-2) 2.总体率的可信区间 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。

SPSS非参数检验之一卡方检验资料讲解

S P S S非参数检验之一 卡方检验

SPSS 中非参数检验之一:总体分布的卡方(Chi-square )检验 在得到一批样本数据后,人们往往希望从中得到样本所来自的总体的分布形态是否和某种特定分布相拟合。这可以通过绘制样本数据直方图的方法来进行粗略的判断。如果需要进行比较准确的判断,则需要使用非参数检验的方法。其中总体分布的卡方检验(也记为χ2检验)就是一种比较好的方法。 一、定义 总体分布的卡方检验适用于配合度检验,是根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。它的零假设H0:样本来自的总体分布形态和期望分布或某一理论分布没有显著差异。 总体分布的卡方检验的原理是:如果从一个随机变量尤中随机抽取若干个观察样本,这些观察样本落在X 的k 个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k 趋于无穷时,就近似服从X 的总体分布。 因此,假设样本来自的总体服从某个期望分布或理论分布集的实际观察频数同时获得样本数据各子集的实际观察频数,并依据下面的公式计算统计量Q () 2 1 k i i i i O E Q E =-=∑ 其中,Oi 表示观察频数;Ei 表示期望频数或理论频数。可见Q 值越大,表示观察频数和理论频数越不接近;Q 值越小,说明观察频数和理论频数越接近。SPSS 将自动计算Q 统计量,由于Q 统计量服从K-1个自由度的X 平方分布,因此SPSS 将根据X 平方分布表给出Q 统计量所对应的相伴概率值。 如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本来自的总体分布形态与期望分布或理论分布存在显著差异;如果相伴概率值

卡方检验法

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数 (f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布, 可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况:

卡方检验习题说课讲解

卡方检验习题

2 χ检验 练习题 一、最佳选择题 1.四格表的周边合计不变时,如果实际频数有变化,则理论频数()。 A.增大 B.减小 C.不变 D.不确定 E.随a格子实际频数增减而增减 2.有97份血液标本,将每份标本一分为二,分别用血凝试验法和ELISA 法对轮状病毒进行诊断,诊断符合情况见下表,欲比较何种诊断方法的诊断符合率较高,用()统计方法? 两种诊断方法的诊断结果 血凝试验法 ELISA法 合计符合不符合 符合74 8 82 不符合14 1 15 合计88 9 97 A.连续性校正2χ检验 B.非连续性校正2χ检验 C.确切概率法 D.配对2χ检验(McNemar检验) E.拟合优度2χ检验 3.做5个样本率的χ2检验,每组样本量均为50,其自由度为()。 A 249 B 246 C 1 D 4 E 9 4.对四格表资料做2χ检验时,如果将四格表的行与列对调,则对调前后的()。 A.校正2χ值不等 B.非校正2χ值不等 C.确切概率检验的P值不等 D.非校正2χ值相等

E.非校正2χ值可能相等,也可能不等 二、问答题 1.简述2χ检验的基本思想。 2.四格表2χ检验有哪两种类型?各自在运用上有何注意事项? 3.什么情况下使用Fisher确切概率检验两个率的差别? 4.在回顾性研究和前瞻性研究的四格表中,各自如何定义优势比? 三、计算题 1.前列腺癌患者121名中,82名接受电切术治疗,术后有合并症者11人;39名接受开放手术治疗,术后有合并症者1人。试分析两种手术的合并症发生率有无差异? 2.苏格兰西南部两个地区献血人员的血型记录见下表,问两地的血型分布是否相同? 两地献血人员的血型分布 地区 血型 合计A B O AB Eskdale 33 6 56 5 100 Annandale 54 14 52 5 125 合计87 20 108 10 225 3.某医院以400例自愿接受妇科门诊手术的未产妇为观察对象,将其分为4 组,每组 100例,分别给予不同的镇痛处理,观察的镇痛效果见下表,问4种镇痛方法的效果有无差异? 4种镇痛方法的效果比较 镇痛方法例数有效率(%) 颈麻100 41 注药100 94 置栓100 89 对照100 27

卡方检验应用

卡方检验应用

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据 统计方法。 卡方检验是专用于解决计数数据统计分析 的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否 有关联或是否独立的问题。

在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题

卡方检验模型验证方法

卡方检验模型验证方法模型参数的验证方法主要使用卡方拟合度检验( Chi-square Goodness-of-fit Test )结合最大似然 估计( Maximum Likelihood Estimation ),并且使用QQ图(Quantile-Quantile Plot)证明验证结果。 具体的说,就是先假定采集的样本数据符合某一分布,通过最大似然估计方法估计出该分布的参数,然后代入并用卡方检验计算相对于该分布的偏差。实践中我们对于一组样本数据,计算所有常见分布的偏差值,选取偏差最小的分布做为该样本的拟合结果。另外,从QQ图直观上看,该分布做为拟合结果描绘出的曲线 必须近似为接近参考线的直线(见3.3),否则我们就将数据拆分为多个部分进行分段的拟合(如对终端请求包大小的拟合)。 1.1 卡方拟合度检验卡方检验是一种大样本假设检验法,用于检验随机事件中提出的样本数据是否符合某一给定分布。 它需要较 大量的样本数据及已知的待检验概率分布函数。 1.1.1 卡方检验原理对于一个服从二项分布的随机变量Y服从Binomial( n, p) ,均值为,方差 。 由中心极限定理,符合标准正态分布N (0, 1),所以服从自由度为1的卡方分布。 设服从Binomial( n, p1 ), , , 则 有 所以 同理对于k个随机变量,均值分别为 , 在数据拟合时,先对数据分组,每组数据的实际个数即为随机变量

,,,则数据拟合即为判断 是否符合分布, 该卡方分布的自由度为k-1-nep(k为随机变量个数,nep为估计参数的个数)。 1.1.2 卡方检验步骤:假定样本服从某一给定分布。根据样本数据用最大似然法估计分布的密度函数参数。设定置信度,对n个样本数据排序。 把排序后的数据分成k组,确定每组的上下限,(上下限确定方法不同对验证能力有影响, 每组数据不少于5个),为了方便起见,本项目中采用平均划分分组间隔,即使为常数, 对于所有的成立。 计算每组数据实际个数,第i组实际个数为。 计算每组数据期望个数,第i组期望个数为: 连续:,其中F(x)为待验证的概率分布函数, 离散:。 计算。 理论上说如果,则数据符合分布函数为F(x)的分布, 其中,nep为估计的参数的个数。但是由于实际采集的数据并非完全地符合某一分布, 总存在一定的偏差,计算出的值并不满足这个条件, 所以我们使用的拟合标准为采用卡方估计值最小的分布作为验证结果。

卡方检验法

记数数据统计法—卡方检验法 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况: 卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

第7章卡方检验

卡方检验(Chi-square test) stat9@https://www.360docs.net/doc/af5702790.html,

检验(Chi-square test)是现代统计学的创始人 K. Pearson 提出的一种具有广泛用途的统计方法。 该检验可用于两个及多个率(或者构成比)之间的比较,分类资料的关联度分析,拟合优度检验等。 2

一、卡方检验的基本思想 首先介绍一个抽样分布:卡方分布 ?属连续型分布 ?可加性是其基本性质 ?唯一参数,即自由度

(1) 自由度为1的χ2 分布 若Z N ~(,),01则Z 2 的分布称为自由度为1的χ2分布. (Chi-square distribution),记为χ()12或χ2 1(). 图形: 0246810 0.0 0.1 0.2 0.3 2 2 2 0.05(1)0.05/2 2 2 2 0.01(1) 0.01/2 3.84(1.96)6.63(2.5758)Z Z χχ ======

(2) νZ Z Z ,...,,21互相独立,均服从N (,)01, 则22221...νZ Z Z +++的分布称自由度为 ν的χ2 分布, 记为χν()2或)(2νχ,或简记为χ2 . ● 图形: ● 自由度ν很大时,2 () νχ近似地服从正态分布.有 2()2 (),22Z ννχνχννν -=服从均数为,方差为的正态分布

0.0 0.10.20.3 0.40.50 3 6 912 1518 ?¨·??μ ×Y ·?×?óé?è£?1 ×?óé?è£?2×?óé?è£?3×?óé?è£?6 2 /) 12/(2 2 22 )2/(21 )(χνχνχ--??? ? ??Γ= e f 3.84 7.81 12.59 P =0.05的临界值 χ2分布(Chi-square distribution )

卡方检验原理与应用实例

卡方检验原理与应用实例: 本文简单介绍卡方检验的原理和两个类型的卡方检验实例。 一、卡方检验的作用和原理 1)卡方检验的作用:简单来说就是检验实际的数据分布情况与理论的分布情况是否相同的假设检验方法。怎么理解这句话呢,拿一个群体的身高来说,理论上身高低于1米5的占10%,高于2.0的占10%,中间的占80%,现在我们抽取了这个群体中的一群人,那么对应这三个身高段的人数的比例关系是不是 1:8:1呢?卡方分析就是解决这类问题。 2)卡方检验的原理:上面已经提到卡方检验是检验实际的分布于理论的分布时候一致的检验,那么用什么统计量来衡量呢!统计学家引入了如下的公式: Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ti等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。和参数检验的判断标准一样,这个统计量有一个相伴概率p。零假设是理论分布与实际分布是一致的,所以如果P小于0.05,那么就拒绝原假设,认为理论和实际分布不一致。 二、适合性卡方测验 所谓适合性检验就是检验一个样本的分布是否符合某个分布的一种假设检验方法。比如说检验数据是否正态分布,是否成二项分布或者平均分布等等。拿正态分布来说吧!请看下图

在这个近似标准正态分布的玉米株高的分布中,横轴代表的是株高的数据,而纵轴代表的是对应株高的频数,简单来说,正态曲线上的某点的纵坐标代表的就是这个点对应的横轴坐标显示株高的玉米有多少株。只不过正态分布曲线上显示的是频率值,而频率=该组株数/总的株数,所以分布曲线不会变,只不过纵坐标由频数变为频率。这也解释了昨天推送的《如何判断数据是否符合正态分布》中用带正态曲线的直方图判断数据是否符合正态分布的原理。 回到本节,当我们要检验玉米株高是否符合正态分布时,我们能够通过计算,计算出当样本量为600(注意本例株高数据的个案数为600,下载数据资料进行练习过的学员应该知道)时,每个株高下的玉米株数设为E,然后我们已经有实际值设为A,然后我们带入上面的公式计算得到卡方统计量,由SPSS输出相伴概率,我们就能判断数据是否符合正态分布了。 再说一个例子。

5习题-卡方检验知识讲解

计数资料统计分析————习题 1.220.05,n x x ≥ 则( ) A.P ≥0.05 B.P ≤0.05 C.P <0.05 D.P =0.05 E.P >0.05 2.2x 检验中,自由度v 的计算为( ) A.行×列(R ×C ) B.样本含量n C.n-1 D.(R -1)(C -1) E.n 2.四格表卡方检验中,2x <20.05(1)x ,可认为 A.两样本率不同 B.两样本率相同 C.两总体率不同 D.两总体率相同 E.样本率与总体率不同 3.分析计数资料时,最常用的显著性检验方法是( ) A.t 检验法 B.正态检验法 C.秩和检验法 D.2 x 检验法 E.方差分析 4.在卡方界值(2x )表中,当自由度一定时,2x 值愈大,P 值( ) A.不变 B.愈大 C.愈小 D.与2x 值相等 E.与2x 值无关 5.从甲乙两篇论文中,查到同类的两个率比较的四格表资料以及2x 检验结果,甲论文 2x >20.01(1)x 2x >2 0.05(1)x 。若甲乙两论文的样本量相同,则可认为( ) A.两论文结果有矛盾 B.两论文结果基本一致 C.甲论文结果更可信 D.甲论文结果不可信 E.甲论文说明两总体的差别大 6.计算R ×C 表的专用公式是( ) A. 22 ()()()()()ad bc n x a b a c b d c d -=++++ B. B. 2 2 ()b c x b c -=+ C . 2 2 1R C A x n n n ??=- ???∑ D. ()220.5b c x b c --=+ E. 2 2 ()A T x T -=∑

统计方法卡方检验

卡方统计量 卡方检验用途: 可以对两个率或构成比以及多个率或构成比间的差异做统计学检验 第一节. 四格表资料的χ2检验 例8.1 为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果见表8.1,问铅中毒病人和对照人群的尿棕色素阳性率有无差别? 表8.1 两组人群尿棕色素阳性率比较 组别阳性数阴性数合计阳性率% 病人29(18.74) 7(17.26) 36 80.56 对照9(19.26)28(17.74) 37 24.32 合计38 35 73 52.05 卡方检验的基本思想 表1中29、7、9、28是构成四格表资料的四个基本格子的数字,其余行合计和列合计以及总的合计都可以根据该四个数字推算出来,故该类资料被称为四格表资料 四格表卡方检验的步骤 以例8.1为例 1.建立假设: H0:π1 = π2 H1:π1≠π2 α=0.05 四格表的四格子里的数字是实际数,在表1中四个数字旁边括号中的四个数字为理论数,其含义是当无效假设成立的时候,理论上两组人群各有多少阳性和阴性的人数。 若H0:π1=π2成立→p1=p2=p 即假设两组间阳性率无差别,阳性率都是等于合计的52.05%,那么 铅中毒病人36人,则理论上有 36 ╳52.05%=18.74人为阳性; 对照组37人,则理论上有 37 ╳52.05%=19.26人为阳性。 故每个实际数所对应的理论数算法是,该实际数对应的行和乘列和再除以总的N样本含量。 即TRC=nR nC / n 2.计算理论数 第1行1列: T11=36×38/73= 18.74 依次类推T12 = 17.26 T21 = 19.26 T22 = 17.74 四格表中理论数的两大特征: (1)理论频数表的构成相同,即不但各行构成比相同,而且各列构成比也相同; (2)各个基本格子实际数与理论数的差别(绝对值)相同。 一、卡方检验基本公式

卡方检验应用

卡方检验应用 Prepared on 24 November 2020

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来

卡方检验法在检验学生成绩中的应用

2 χ检验法在检验学生成绩中的应用 摘要 在对学生成绩分析时,采用数理统计中的2χ检验法可以方便有效地得出相关数据。以某初中全体学生的数学成绩为总体,采用卡方拟合检验法来检验初三学生的数学成绩近似的服从正态分布,以及检验其相应的方差是否正确,完成对考试成绩客观准确的分析,充分了解学生的学习情况。利用卡方分布检验中重要应用列联表独立检验对学生数学成绩与学校对其所培养的重视程度的关系进行研究,这可以帮助我们去发现教育教学中所要发生的问题,为教育质量的认定与评价提供有效的保障。 关键词: 2χ检验法;假设检验;卡方分布

The application of 2χ-test in test scores of students Abstract In the analysis of student achievement, using the test statistics can be conveniently and effectively get the relevant data. A junior high school student with math scores for overall, using the chi-squared fit to test the students mathematical results approximately obey the normal distribution, and test the corresponding variance is correct, complete analysis of test scores of objective and accurate, the full understanding of students learning. Using the card application distribution test of contingency table test for students to study mathematics achievement and school emphasis on its culture, which can help us to discover what happens in education and teaching, to provide an effective guarantee for the monitoring and evaluation of the quality of education. Keywords: 2χ-test, hypothesis testing, 2χdistribution

SPSS17.0在生物统计学中的应用-实验七-卡方检验

SPSS在生物统计学中的应用 ——实验指导手册 实验七:卡方检验 一、实验目标与要求 1.帮助学生深入了解卡方检验的基本概念,掌握卡方检验的基本思想和原理 2.掌握卡方检验的过程。 二、实验原理 卡方检验适用于次数分布的检验,比如次数分布是否与某种理想的分布一致,或者不同样本同类测量分 数次数分布是否一致。对于前者,先要确定一个理想的次数分布比例,然后将观测的某一次数分布与其比较, 确定二者的差异性,并用X2来反映。X2 越小,则差异越小,该样本的观测分布越有可能适合于理想分布; X2 越大,则差异越大,其服从于理想分布的可能性就越小。当服从理想分布的伴随概率小于0.05时,就认为该次数分布与理想的分布有显著性差异。 不同样本中测量分数的次数分布使用卡方检验时,如果卡方足够大,该观测在两个样本中的次数分布服 从于同一总体的概率小于0.05时,则认为样本间存在显著性差异。 三、实验演示内容与步骤 ㈠适合性检验 比较观测数与理论数是否符合的假设检验(compatibility test),也称吻合性检验或拟合优度检验(goodness of fit test).。 【例】有一鲤鱼遗传试验,以红色和青灰色杂交,其F2代获得不同分离尾数,问观测值是否符合孟德尔3:1遗传定律. 体色青灰色红色总数 F2观测尾数1503 99 1602 1. 定义变量:

2. 输入变量值 3. 选择菜单1:点击菜单【数据】→【加权个案】→弹出“加权个案”对话框 → 4. 选择菜单2:点击菜单【分析】→【非参数检验】→【卡方】→弹出“卡方检验”对话框

点击【选项】按钮,弹出“卡方检验:选项”对话框,选择“描述性”,点击【继续】 点击【确定】在输出结果视图中看分析结果 基本统计量 Descriptive Statistics N Mean Std. Deviation Minimum Maximum 观测尾数1602 1416.24 338.172 99 1503 观测尾数 Observed N 实测频数Expected N 理论频数 Residual 偏差 99 99 400.5 -301.5 1503 1503 1201.5 301.5 Total 1602 Test Statistics 观测尾数 Chi-Square 卡方值302.629a df 1 Asymp. Sig. .000 a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 400.5.

卡方检验的运用

卡方检验的运用 (2011-07-12 18:50:46) 转载▼ 标签: 分类:数理统计 卡方检验 检验 列联表 检验方法选择 chi-test 教育 转载自https://www.360docs.net/doc/af5702790.html,/138497634.html 卡方检验的运用 1、问题的提出 许多实验工作者在对实验数据进行统计分析的时候经常会犯一类错误,就是在对定性资料分析的时候不考虑它是何种类定性资料而不假思索使用一般卡方检验,这种做法有的时候是错误的,有的时候使得实验信息丢失了许多从而导致实验整体不够科学严谨。这就要求我们生物医学工作者合理选用统计分析方法处理各类定性资料。 2、卡方检验的特点及应用 合理选用统计分析方法处理各种定性资料的关键在于准确的判断出各种列 联表资料分类,列联表资料通常可分为:2×2表,R×C表,2×k表与k×2表,高维列联表四大类。各类资料又可细分为许多种类,并不是每一类资料都可以使用卡方检验,有的可以直接使用,有的根据实验目的的不同而选择使用,有的则不适宜使用。卡方检验(也称为pearson 卡方检验)用于检验独立性,一般,有一个由大量个体构成的总体,每一个体上可量度两个属性指标:A,B。指标A 分r级:A ,…,A ,而指标B分s级:B ,…B 级。从该总体中随机抽出n个个体,测得第i个个体的指标状况为(A ,B ),i=1,…,n. 要根据这些资料,判断各行频数分布是否相同,使用卡方检验。 3、2×2表资料中应用实例 3.1横断面研究设计的2×2表资料中卡方检验应用

【例1】评价两种小儿细菌性肺炎治疗药物的有效率,将103例小儿患者随机分为两组,一组53例,一组50例,分别以药物阿莫西林钠(Ⅰ)和头孢呋新钠(Ⅱ)进行治疗,结果如下表1所示: 表1 两种治疗方法对小儿细菌性肺炎治疗效果比较 【例1分析】上表是关于两种治疗药物对小儿细菌性肺炎的治疗效果评价,可采用横断面研究设计2×2表资料中一般卡方检验。 3.2队列研究设计的2×2表资料中卡方检验应用 【例2】为观察力肽注射液与氨基酸混合注射是否引起不良反应,将医嘱上要用力肽注射液的病人随机分为两组。A组大静脉营养袋组为12例,按输一天的量为1 次计算,输入力肽的次数达60次。B组与氨基酸配伍组为12例,按输一天力肽的量为1次计算,输入力肽次数共60次。结果如下表2所示: 表2 两种输液方法静滴力肽不良反应结果比较 【例2分析】这是一个队列研究设计的2×2表资料,即先有实验分组(即原因变量,力肽注射液,力肽注射液加氨基酸),而后观察是否有不良反应。针对该类资料,按如下步骤进行计算,首先将其按照横断面研究设计的2×2表资料进行处理,计算卡方值,看其两行上的频数分布是否有统计学意义,若得到 P<0.05的结果时,需要进行第二步,否则停止计算;第二步,计算相对危险度RR(即relative risk,简称RR);第三步,运用MH卡方检验,检验总体RR与1之间的差别是否具有统计学意义。 3.3病例对照研究设计的2×2表资料中检验应用

记数数据统计法卡方检验法.

记数数据统计法卡方检验法 第八章记数数据统计法一卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、......... , 教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟

合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。

卡方检验的多种应用场景总结

卡方检验的多种应用场景总结 展开全文 T检验是比较两组定量数据均值之间是否存在显著差异的方法。如果是定类数据之间的差异性,比较均值显然不合理,而用数字出现的频数或比例进行比较,就可以不考虑数值本身的信息,直接比较出类别变量之间的关系情况。这类分析方法就被称为卡方检验。 本文将从概念、方法分类、每个方法的使用场景及案例分析对卡方检验进行介绍。 01.概念卡方检验是一种用途广泛的分析定类数据差异性的

方法,用于比较定类与定类数据的关系情况,以及分析实际数据的比例与预期比例是否一致。 02.方法分类与T检验一样,卡方检验也可细分为:分析卡方优度检验、交叉表卡方、配对卡方。具体分析方法如下: 分析方法区分-SPSSAU整理 03.卡方优度检验卡方优度检验,是对一列数据进行统计检验,分析单个分类变量实际观测的比例与期望比例是否一致。 案例:当前收集了100份数据用于研究,其中有48名男性,52位女性。在收集数据前预期男女比例应该是4:6 (40%为男性,60%为女性),现在想分析实际收集到的数据比例与预期的比例有没有显著的差异。 操作步骤: (1)卡方拟合优度检验支持两种数据格式:整理后的加权数据或原始数据。处理好数据后,上传数据到SPSSAU,开始分析。 (2)选择【实验/医学研究】→【卡方优度检验】。 如使用原始数据,直接将“性别”项放入分析框即可。 如使用加权格式数据,需要把将“性别”项放入分析框,同时在加权项中放入“个数(权重)”

加权格式 (3)设置期望值: 不勾选【期望值设置】,系统会默认各比例相等,本例中期望比例为4:6,所以需要手动设置。 分析结果: 卡方拟合优度检验 上表格显示,男女的实际频数分别是48和52,预期频数分别是40和60;经过卡方拟合优度检验显示,实际比例和期望比例并没有呈现出显著性差异(X2=2.667,p=0.102>0.05),意味着实际情况与期望情况基本一致,无明显的差异性。 04.交叉表卡方卡方优度检验是对一个分类变量的检验,在实际研究中,研究两组分类变量的关系更加常见,例如想要了解阅读习惯与学历是否有关,此时可使用交叉卡方。 案例:分析不同性别学生对购买理财产品的意愿是否有差异。 操作步骤: 使用路径:通用方法→交叉(卡方)

卡方检验的应用

卡方检验的运用(2011-07-12 18:50:46)转载▼ 标签:卡方检验检验列联表检验方法选择chi-test 教育分类:数理统计 转载自https://www.360docs.net/doc/af5702790.html,/138497634.html 卡方检验的运用 1、问题的提出 许多实验工作者在对实验数据进行统计分析的时候经常会犯一类错误,就是在对定性资料分析的时候不考虑它是何种类定性资料而不假思索使用一般卡方检验,这种做法有的时候是错误的,有的时候使得实验信息丢失了许多从而导致实验整体不够科学严谨。这就要求我们合理选用统计分析方法处理各类定性资料。 2、卡方检验的特点及应用 合理选用统计分析方法处理各种定性资料的关键在于准确的判断出各种列联表资料分类,列联表资料通常可分为:2×2表,R×C表,2×k表与k×2表,高维列联表四大类。各类资料又可细分为许多种类,并不是每一类资料都可以使用卡方检验,有的可以直接使用,有的根据实验目的的不同而选择使用,有的则不适宜使用。卡方检验(也称为pearson卡方检验)用于检验独立性,一般,有一个由大量个体构成的总体,每一个体上可量度两个属性指标:A,B。指标A分r级:A ,…,A ,而指标B分s级:B ,…B 级。从该总体中随机抽出n个个体,测得第i个个体的指标状况为(A ,B ),i=1,…,n. 要根据这些资料,判断各行频数分布是否相同,使用卡方检验。 3、2×2表资料中应用实例 3.1横断面研究设计的2×2表资料中卡方检验应用 【例1】评价两种小儿细菌性肺炎治疗药物的有效率,将103例小儿患者随机分为两组,一组53例,一组50例,分别以药物阿莫西林钠(Ⅰ)和头孢呋新钠(Ⅱ)进行治疗,结果如下表1所示: 表1 两种治疗方法对小儿细菌性肺炎治疗效果比较 分组 例数 治疗效果:有效无效合计 Ⅰ组 Ⅱ组 合计 44 9 53 42 8 50 86 17 103 【例1分析】上表是关于两种治疗药物对小儿细菌性肺炎的治疗效果评价,可采用横断面研究设计2×2表资料中一般卡方检验。 3.2 队列研究设计的2×2表资料中卡方检验应用 【例2】为观察力肽注射液与氨基酸混合注射是否引起不良反应,将医嘱上要用力肽注射液的病人随机分为两组。A组大静脉营养袋组为12例,按输一天的量为1 次计算,输入力肽的次数达60次。B组与氨基酸配伍组为12例,按输一天力肽的量为1次计算,输入力肽次数共60次。结果如下表2所示: 表2 两种输液方法静滴力肽不良反应结果比较 分组 例数 输液结果:有不良反应无不良反应合计

统计学教案习题08卡方检验

第八章 2 χ 检验 一、教学大纲要求 (一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2χ检验。 (1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。 3. 行?列表的2χ检验。 (二) 熟悉内容 频数分布拟合优度的2χ检验。 (三) 了解内容 1.2 χ分布的图形。 2.四格表的确切概率法。 二、教学内容精要 (一) 2χ检验的用途 2χ检验(Chi-square test )用途较广,主要用途如下: 1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2χ检验的基本思想 1.2χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H : 21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2 χ值不应该很大,若实际计算出的2 χ值较大,超过了设定的 检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑ -= T T A 2 2 χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency )。四格 表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2 χ值是一致的。 (三)率的抽样误差与可信区间 1.率的抽样误差与标准误 样本率与总体率之间存在抽样误差,其度量方法: n p ) 1(ππσ-= ,π为总体率,或 (8-1) n p p S p ) 1(-= , p 为样本率; (8-2) 2.总体率的可信区间 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。 总体率的可信区间:(p p S u p S u p ?+?-2/2/,αα)。 (8-3) (四)2 χ检验的基本计算 表8-1 2检验的用途、假设的设立及基本计算公式 01四格表 ①独立资料两 样本率的比较 ②配对资料两 样本率的比较 0H :两总体率相等 1H :两总体率不等 ①专用公式 )(22 n bc ad -= χ

相关文档
最新文档