交叉表分析

进行交叉表分析时需要注意：

（1）卡方检验要求各单元的期望频数均大于5或小于5的比例不能超过20%；当样本数小于40时，需要进行小样本的交叉表分析。即选择输出结果中的Fisher精确检验结果（Fisher's Exact Test）

（2）若变量为定距以上的变量需要先转化为定类或定序变量

data05-02为某公司工资数据（n=15）。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。

可以利用data05-01中的数据，使用变量occcat80为工作性质分类，region为地区，childs 为每个家庭的孩子数。将childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析。

列联表（交叉表）分析

1、项目名称

Crosstabs过程

4、实训原理

Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表，并计算相应的百分数指标。

4-1 列联表分析的含义与任务

在实际分析中，当问题涉及到多个变量时，我们不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。很明显，如果还采用单纯的频数分析方法显然不能满足要求。因此，我们需要借助交叉分组下的频数分析，即列联表分析。列联表分析的主要任务有两个：

（1）根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。

（2）在交叉列联表的基础上，分析两变量之间是否具有独立性或一定的相关性。

4-2 卡方检验的原理

为了理解列联表中行变量（Row）和列变量（Column）之间的关系，我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样，

卡方检验主要包括三个步骤：

（1）建立零假设：行变量和列变量相互独立。

（2）选择和计算检验统计量。列联表分析中的检验统计量是Pearson 卡方统计量。其公式为：

()

∑∑

==-=r i c

j e

ij e ij o ij f f f

2χ（4-9-1）

其中，r 为列联表的行数，c 为列联表的列数，0f 为实际观测频数，e f 期望观测频数。期望频数的计算公式为：

RT f e ?=

（4-9-2）其中，RT 是指定单元格所在行的观测频数合计，CT 是指定单元格所在列的观测频数合计，n 是观测频数的合计。

由式（4-9-1）可以看出，卡方统计量的大小取决于两个因素：一个是列联表的格子数；另一个是观测频数和期望频数的差值。在列联表固定的情况下，卡方统计量取值的大小取决于观测频数和期望频数的总差值。当总差值越大时，卡方值也就越大，表明行列变量之间越相关；反之，当总差值越小时，卡方值也就越小，表明行列变量之间越独立。

（3）得出结论并做决策。根据卡方统计量的概率P 值和显著性水平α进行比较，做出拒绝还是接受原假设的结论。如果卡方检验的概率P 值小于显著性水平α，则拒绝原假设，认为行列变量之间不独立，两者之间存在依存关系。反之，如果卡方检验的概率P 值大于显著性水平α，则接受原假设，认为行列变量之间独立，两者之间不存在依存关系。

在卡方检验中还需要注意：交叉列联表中不应有期望频数小于1的单元格，或者不应有大量期望频数小于5的单元格。如果交叉列联表中有20%以上单元格中的期望频数小于5，则不应用卡方检验，可以采用似然比（Likelihood Ratio ）卡方检验等方法进行修正。

5、背景材料

某新产品上市前一个月中，分别对北京、上海、深圳三地进行了市场调查，调查表中有一项是关于顾客获知该产品的渠道。随机抽取了300份调查表，统计顾客获知产品渠道的数据如下，SPSS 数据文件见4-9.sav 。

表4-9-1 顾客获知某新产品渠道的调查数据

6、实训步骤

6-1 选择菜单“Analyze ”→“Descriptive Statistics ”→“Crosstabs ”弹出如图4-9-1所示的窗口，进入列联表分析界面。

图4-9-1 列联表分析窗口

6-2 选择列联表中的行变量进入Row(s)框，如表4-9-1中的获取新产品的渠道变量。

6-3 选择列连表中的列变量进入Column(s)框，如表4-9-1中的城市变量。 6-4 Layer 框：Layer 指的是层，对话框中的许多设置都可以分层设定，在同一层中的变量使用相同的设置，而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析，则将其选入Layer 框，并用Previous 和Next 钮设为不同层。Layer 在这里用的比较少，在多元回归中我们将进行详细的解释。

6-5 选择Display clustered bar charts 复选框表示输出分组条图。选择Suppress table 复选框表示禁止在结果中输出列联表。

6-6 单击按钮，弹出Exact Tests子对话框，如图4-9-2所示。

图4-9-2 Exact Tests子对话框

Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法，可以是不计算（Asymptotic only）、蒙特卡罗模拟（Monte Carlo）或确切计算（Exact）。其中，系统默认是不计算；蒙特卡罗模拟默认进行10000次模拟，给出99%置信区间；确切计算默认计算时间限制在5分钟内。这些默认值均可更改。

6-7 单击按钮，弹出Statistics子对话框，用于定义所需计算的统计量。如图4-9-3所示。

图4-9-3 Statistics子对话框

Statistics子对话框包括：

χ值。

（1）Chi-square复选框：选择是否进行卡方检验，计算2

（2）Correlaitons复选框：计算列联表两变量的Pearson相关系数和Spearman 等级相关系数。

（3）Nominal复选框组：选择是否输出反映分类资料相关性的指标，很少使用，共有四个选项：

Contingency coefficient复选框：列联系数，其值界于0～1之间，取值越大说明两变量之间的相关性越强。

Phi and Cramer’s V复选框：这两者也是基于2χ值的，Phi在四格表2χ检验

χ检验中界于0～1之间；Cramer’s V则界于0～1中界于-1～1之间，在R*C表2

之间。该指标的绝对值越大，说明两变量之间的相关性越强。

Lambda复选框：在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测因变量好，为0时表明自变量预测因变量差。

Uncertainty coefficient复选框：不确定系数，以熵为标准的比例缩减误差，其值接近1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后

一变量的信息与前一变量无关。

(4)Ordianl复选框组：选择是否输出反映定序资料相关性的指标，很少使用。包括以下组成部分：

Gamma复选框：界于-1～1之间，所有观察实际数集中于左上角和右下角时，其值为1，取1和-1代表两变量完全一致或不一致，取0代表两变量完全不相关。

Somers’d复选框：为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例。界于-1～1之间，结果解释同上；

Kendall’s tau-b复选框：界于-1～1之间，结果解释同上；

Kendall’s tau-c复选框：界于-1～1之间，结果解释同上；

（5）Nominal by Interval：Eta复选框：计算Eta值，用于分类变量的检验，其平方值可认为是因变量受不同因素影响所致方差的比例；

（6）Kappa复选框：计算Kappa值，即内部一致性系数。通常Kappa大于0.75则认为两变量的一致性较好；小于0.4则认为两变量的一致性较差；

（7）Risk复选框：计算相对危险系数；

（8）McNemar复选框：进行McNemar检验（一种非参检验），该检验只有在行列数相等时才能用；

（9）Cochran’s and Mantel-Haenszel statistics复选框：进行独立性和齐性检验。

6-8 单击按钮弹出Cell子对话框，用于定义列联表单元格中需要计算的指标，如图4-9-4所示。

图4-9-4 Cell子对话框

Cell子对话框主要包括以下几部分：

Counts复选框：是否输出实际观察数( Observed)和期望数（Expected）；

Percentages复选框：是否输出行百分数（Row）、列百分数（Column）以及合计百分数（Total）；

Residuals复选框：选择残差的显示方式，可以是实际数与期望数的差值（Unstandardized）、标化后的差值（standardized，将差值转化为标准正态分布），或者被标准误除的单元格残差（Adj.standardized）；

Noninteger Weights：当频数因为加权而变成小数时，选择该项对频数进行取整。主要包括五种方法：Round cell counts：对频数进行四舍五入取整；Round case weights：对加权样本在使用前进行四舍五入取整；Truncate cell counts：对频数进行舍位取整；Truncate case weights：对加权样本在使用前进行舍位取整；No adjustments：不调整。

6-9 单击按钮，弹出Format子对话框，用于选择行变量是升序还是降序。单击按钮返回主界面，单击按钮完成操作。

7、实训解析

由于背景资料中表4-9-1的数据给出的直接是频数表，因此在建立SPSS数据集时可以直接输入三个变量：——行变量、列变量和指示每个单元格中频数的

变量，然后指定频数变量，最后进行

检验。

因此，我们要检验原假设：“获知方式”与“城市”两变量之间是独立的，需要首先用Data菜单中的“Weight Cases”命令，设置频数变量；然后在“Crosstabs”命令中将“获知方式”、“城市”分别设置为行列变量；选中Display clustered bar charts选项，在Statistics对话框中选择Chi-square选项，在Cells对话框中选择Observed、Expectde选项，设置完成后点击OK按钮，完成操作，结果如表4-9-2、表4-9-3和图4-9-5所示。

表4-9-3是卡方检验结果，共使用了三种检验方法。Pearson Chi-Square的显著水平0.107大于0.05，因此不能拒绝原假设，认为“获知方式”与“城市”两变量之间独立，即它们之间不存在相互依赖关系。

count is 7.11.

图4-9-5 获知方式与城市交叉分组的条形图

交叉表分析

进行交叉表分析时需要注意：（1）卡方检验要求各单元的期望频数均大于5或小于5的比例不能超过20%；当样本数小于40时，需要进行小样本的交叉表分析。即选择输出结果中的Fisher精确检验结果（Fisher's Exact Test）（2）若变量为定距以上的变量需要先转化为定类或定序变量 data05-02为某公司工资数据（n=15）。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。可以利用data05-01中的数据，使用变量occcat80为工作性质分类，region为地区，childs 为每个家庭的孩子数。将childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析。列联表（交叉表）分析 1、项目名称 Crosstabs过程 4、实训原理 Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表，并计算相应的百分数指标。 4-1 列联表分析的含义与任务在实际分析中，当问题涉及到多个变量时，我们不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。很明显，如果还采用单纯的频数分析方法显然不能满足要求。因此，我们需要借助交叉分组下的频数分析，即列联表分析。列联表分析的主要任务有两个：（1）根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。（2）在交叉列联表的基础上，分析两变量之间是否具有独立性或一定的相关性。 4-2 卡方检验的原理为了理解列联表中行变量（Row）和列变量（Column）之间的关系，我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样，

交叉列联分析

交叉列联表分析在实际分析中，除了需要对单个变量的数据分布情况进行分析外，还需要掌握多个变量在不同取值情况下的数据分布情况，从而进一步深入分析变量之间的相互影响和关系，这种分析就称为交叉列联表分析。当所观察的现象同时与两个因素有关时，如某种服装的销量受价格和居民收入的影响，某种产品的生产成本受原材料价格和产量的影响等，通过交叉列联表分析，可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。因此，数据交叉列联表分析主要包括两个基本任务：一是根据收集的样本数据，产生二维或多维交叉列联表；二是在交叉列联表的基础上，对两个变量间是否存在相关性进行检验。要获得变量之间的相关性，仅仅靠描述性统计的数据是不够的，还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。常用的衡量变量间相关程度的统计量是简单相关系数，但在交叉列联表分析中，由于行列变量往往不是连续变量，不符合计算简单相关系数的前提条件。因此，需要根据变量的性质选择其他的相关系数，如Kendall等级相关系数、Eta值等。SPSS提供了多种适用于不同类型数据的相关系数表达，这些相关性检验的零假设都是：行和列变量之间相互独立，不存在显著的相关关系。根据SPSS检验后得出的相伴概率（Concomitant Significance）判断是否存在相关关系。如果相伴概率小于显著性水平，那么拒绝零假设，行列变量之间彼此相关；如果相伴概率大于显著性水平，那么接受原假设，行列变量之间彼此独立。在交叉列联表分析中，SPSS所提供的相关关系的检验方法主要有以下3种：（1）卡方（χ2）统计检验：常用于检验行列变量之间是否相关。计算公式为：（）其中，f0表示实际观察频数，f e表示期望频数。 ^ 卡方统计量服从（行数-1）′（列数-1）个自由度的卡方统计。SPSS在计算卡方统计量时，同时给出相应的相伴概率，由此判断行列变量之间是否相关。

交叉列联表分析

交叉列联表分析 ---------用于分析属性数据 1. 属性变量与属性数据分析从变量的测量水平来看分为两类：连续变量和属性(Categorical)变量，属性变量又可分为有序的(Ordinal)和无序的变量。对属性数据进行分析，将达到以下几方面的目的： 1) 产生汇总分类数据——列联表；2) 检验属性变量间的独立性(无关联性)； 3) 计算属性变量间的关联性统计量；4) 对高维数据进行分层分析和建模。在实际中，我们经常遇到判断两个或多个属性变量之间是否独立的问题，如：吸烟与患肺癌是否有关？色盲与性别是否有关？上网时间与学习成绩是否有关等等．解决这类问题常用到建立列联表，利用χ2 统计量作显著性检验来完成． 2．列联表（Contingency Table ）列联表是由两个以上的属性变量进行交叉分类的频数分布表。设二维随机变量（X ，Y ），X 可能取得值为x x x r ,,,2 1 ，Y 可能取得值为y y y s ,,,2 1 ．现从总体中抽取容量为n 的样本，其中事件（X =x i Y =y j ）发生的频率为n j i （i = 1,2, …,r ，j=1,2, …,s ，）记n i ?= ∑=s j j i n 1 ，n j ?=∑=r i j i n 1 ，则有n = ∑∑==r i s j j i n 11 =∑=?r i i n 1 = ∑=?s j j n 1 ，将这些数据排列成如下的表：这是一张r ×s 列联表．

3．属性变量的关联性分析对于不同的属性变量，从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性，即一个变量取不同数值时，另一个变量的分布是否有显著的不同，这就是属性变量关联性分析的内容。属性变量关联性检验的假设为 H0：变量之间无关联性； H1：变量之间有关联性由于变量之间无关联性说明变量互相独立，所以原假设和备择假设可以写为： H0：变量之间独立； H1：变量之间不独立 χ 2 检验 H 0： X 与Y 独立．记P (X =x i ，η=y j ) = p j i ，i =1，2，…，r ，,j = 1，2，…，s ， P (X =x i ) = p i . ， i =1，2，…，r ，P (Y = y j ) =p j . ，j = 1，2，…，s ．由离散性随机变量相互独立的定义，则原假设等价于 H 0：p j i = p i .p j . ，i =1，2，…，r ，,j = 1，2，…，s ．若 p j i 已知，我们可以建立皮尔逊χ2 统计量 χ 2 = ∑==∑ -r i s ij j i j i j i p n p n n 1 1 2 ) (．由皮尔逊定理知，χ2 的极限分布为)1(2 -rs χ ．但这里p j i 未知，因此用它的极大似然估计 p ij ∧ 代替，这时检验统计量为 χ 2 = ∑==∧ ∧ ∑-r i s ij j i j i j i p n p n n 1 1 2 ) (．在H 0成立的条件下， p j i = p i .p j .，即等价于用p i ?和p j ?.的极大似然估计 p i ?∧ 和p j ?∧ 的积去代替．可以求得 p i ?∧ = n n i ? ， i =1，2，…，r ， p j ?∧ = n n j ? ， j = 1，2，…，s ，

SPSS学习系列17. 交叉表与多选题

17. 交叉表与多选题（一）基本理论分类变量包括无序分类变量、有序分类变量、多选题变量集。对于分类变量的描述统计，主要是对分类变量各水平值分别进行频数和比例计算，再进步计算所需的一些相对频数指标。一、单分类变量的统计描述 1. 频数分布分类变量的分析，首先要了解：各类别的样本数（频数），以及占总样本量的百分比；对有序分类变量，还需要了解：累积频数、累积百分比。 2. 集中/离散趋势观察原始频数，或者使用众数。对于分类变量，集中/离散趋势是一体的。 3. 相对频数指标（1）比（Riatio）两个有关指标之比A/B, 用来反映相对的大小关系，例如，月销售额/销售人数；（2）构成比用于描述事物内部各构成部分所占的比重，例如，百分比、累积百分比；

（3）率（Rate）率是具有时间概念或速度、强度意义的指标，表示某个时期内某事件发生的频率或强度，例如速率、频率、费率、发病率等。二、多分类变量的联合描述列联表。例如，r×c二维列联表：（1）共n个样本；（2）按两种属性A、B，属性A有r个水平值：A1, …, A r; 属性B 有c个水平值：B1, …, B c. 属性A=A i，属性B=B j的样本数为n ij. （3）n i. = “属性A=A i”的合计数，n.j = “属性B=B j”的合计数。注：多分类变量对应高维列联表。三、多选题的统计描述多选题是调查问卷的常见题型，因为多选题是回答同一个大问题，所以不能割裂开来单独分析，需要做汇总处理。 1. 应答人数（Count）选择各题项的人数，原始频数；

2. 应答人数百分比选择该项的人数占总人数的百分比，可以反映该选项在人群中的受欢迎程度； 3. 应答人次（Response）选择各选项的总人次，1个受访者选择2个选项，即2人次； 4. 应答次数百分比在做出的所有选择中，选择该项的人次占总人次数的比例。（二）SPSS实现有某调查问卷的数据文件（部分）：变量属性：

spss如何做交叉表分析

交叉表分析主要用来检验两个变量之间是否存在关系，或者说是否独立，其零假设为两个变量之间没有关系。我们在实际的工作中，经常用交叉表来分析比例是否相等。比如我们来分析一下，不同的性别对不同的报纸的选择有什么不同，就是要用交叉表分析了，下面是具体的方法。方法/步骤在spss中打开数据，然后依次打开：analyze--descriptive--crosstabs，打开交叉表对话框将性别放到行列表，将对读物的选择变量放到列，这样就构成了一个交叉表接下来我们要设置输出的结果，点击statistics，打开一个新的对话框勾选chi-square（卡方检验），勾选phi and cramer's V（衡量交互分析中两个变量关系强度的指标），点击continue，回到交叉表对话框点击cells，设置cell中要展示的数据在这里勾选observed（各单元格的观测次数），勾选row（行单元格的百分比），点击continue，回到交叉表对话框点击ok按钮，输出检验结果先看到的第一个表格就是交叉表，性别为行、选择的读物为列卡方检验结果：我们主要是看pearson卡方检验，sig值小于0.05，因此我们认为不同的性别的人对周末读物的选择有显著的差别最后一个表格，输出的是phi值和V值，两个都是代表两个变量之间的关系的紧密度的，数值小于0.1说明关系不紧密，即性别与周末读物的选择没有明显的关系，这个结论和上面的卡方检验有出入，所以我们需要进一步进行两两比较。 Cross table analysis is mainly used to test the existence of a relationship between two variables, or is independent, the null hypothesis for it doesn't matter between the two variables. We are in actual work,https://www.360docs.net/doc/024093263.html,/post/496.html often with cross table to analyze whether equal proportion. For example, we analyze, choose different gender on different newspapers have what different, is to use cross table analysis, the following are the specific method. Methods / procedures Open the data in SPSS, then in turn: analyze--descriptive--crosstabs, cross table dialog box opens The sex on the list, select variables on the readings on the column, so as to form a cross table Next we are going to set the output results, click statistics, open a new dialog Check the chi-square (chi square test),https://www.360docs.net/doc/024093263.html,/post/484.html check the phi and cramer's V (a measure of interaction analysis of two variables relationship strength index), click continue, back cross table dialog box If you click cells, you want to display the data set cell

第十四章--交叉表分析法(课件)

多变量描述统计分析交叉表分析法一、交叉表分析法的概念交叉表(交叉列联表) 分析法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法，此表格反映了这些只有有限分类或取值的离散变量的联合分布。当交叉表只涉及两个定类变量时，交叉表又叫做相依表。交叉列联表分析易于理解，便于解释，操作简单却可以解释比较复杂的现象，因而在市场调查中应用非常广泛。频数分布一次描述一个变量，交叉表可同时描述两个或更多变量。交叉表法的起点是单变量数据，然后依研究目的将这些数据分成两个或多个细目。下面是一个描述交叉表法应用的例子。某保险公司对影响保户开车事故率的因素进行调研，并对各种因素进行了交叉表分析。表1 驾驶员的事故率然后，在性别基础上分解这个信息，判断是否在男女驾车者之间有差别。这样就出现了二维交叉表2。表2 男女驾驶员的事故率高。但人们会提出这样的疑问而否定上述判断的正确性，即男士的事故多，是因为他们驾驶的路程较长。这样就引出第三个因素"驾驶距离"，于是出现了三维交叉表3。表3 不同驾驶距离下的事故率有证明男士和女士哪个驾驶得更好或更谨慎，仅证明了驾车事故率只与驾驶距离成正比，而与驾驶者的性别无关。二、两变量交叉列联表分析例如，研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度之间

的关系，对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。如表4所示。间低于30年的居民比居住时间在30年以上的居民似乎更熟悉百货商场。进一步计算出百分比，则可以看得更直观一些。见表5。表5 居住时间与对百货商场的熟悉程度的交叉列联分析（%）行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。一般的规则是，在自变量的方向上，对因变量计算百分比。以表5为例，居住时间为自变量，对商场的熟悉程度为因变量，因而可以对各居住时间分别计算熟悉程度的百分比。由表5可见，53.6%的居住时间低于13年的人和60.9%的居住时间在13年~30年的人都熟悉该商店，而只有32.9%的居住时间在30年以上的人熟悉该商店。看来，同样住在该地区的人，居住时间越长，对购物环境反而更不熟悉。这个结论是有一定道理的，在一个地方居住很长时间的人一般相对来说更没有动力去熟悉该商场。如果我们在因变量的方向上对自变量计算百分比(如表6所示)，则显然没意义。表6暗示，对当地商场不熟悉会影响居民在该地的居住时间，这显然是不合理的。但是，居住时间与对百货商场的熟悉程度之间的联系可能受第三变量的影响，例如年龄。居住时间越长的人可能年龄越大。尽管分析结果表明年龄在此不是影响因素，但由此可见需要检查第三因素的影响。三、三变量的交叉列联表分析引入第三变量后再进行交叉列联分析，则可能出现以下四种结果： (1)剔除外部环境的影响，使原先两变量间的关系更单纯。例如，在表7中，仅分析婚姻状况和衣服支出水平这两个变量时，从数字上看未婚者在衣服支出方面比已婚者更高一些。但引入变量性别以后，发现对于男性来说，已婚者与未婚者在衣服支出方面没有显著差异，但对于女性未婚者与已婚者，在衣服支出方面的差异则很明显。见表8。

应用SPSS软件进行列联表分析

应用SPSS软件进行列联表分析在许多调查研究中，所得到的数据大多为定性数据，即名义或定序尺度测量的数据。例如在一项全球教育水平的研究中，调查了400余人的个人信息，包括性别、学历、种族等，对原始资料进行整理就可以得到频数分布表。定义四个变量：gender（性别）、educat（学历）、minority（种族）、count（人数），其中前三个为分类变量，并且gender变量取值为0、1,标签值定义为：0表示female，1表示male;educat变量取值为1、2、3，标签值定义为：1表示学历低，2表示学历中等，3表示学历高；minority变量值为0、1，标签值定义为：0表示非少数种族，1表示为少数种族。下面做gender、educat、minority的三维列联表分析及其独立性检验。数据文件如图1所示。图1 第一步：用“count”变量作为权重进行加权分析处理。从菜单上依次选Data--weight Cases 命令，打开对话框，如图2所示。

图2 点选Weight Cases by项，并将变量“count”移入Frequency Variable栏下，之后单击OK按钮。第二步：从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令，打开列联分析对话框(Crosstabs),如图3所示。图3 第三步：在Crosstabs对话框中，如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内，并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内（若

此时单击OK按钮，则会输出一个2*3的二维列联表）。这里要输出一个三维列联表，将变量种族minority作为分层变量移入Layer框中，并且可以勾选左下方的Display clustered bar charts项，以输出聚集的条形图，如图8图9所示。图4 第四步：选择统计量，单击Cosstabs对话框下侧的Statistics按钮，打开其对话框，如图5 所示。图5 在Statistics对话框内，勾选Chi-square项，以输出表2进行独立性检验。这里由于不是定距

调查问卷分析(交叉列表,班级)

中学生文言文学习情况问卷调查结果统计（交叉列表分析，班级）受访人数:969 1、你喜欢文言文吗? 重点班平行班受访总人数 A 非常喜欢50.0%50.0%62 :B 喜欢52.71%47.29%203 C 一般50.29%49.51%511 D 不喜欢40.93%59.07%193 受访总人数474 494 968 2、学习文言文，对你的说话和写作有帮助吗？重点班平行班受访总人数 A 有很大帮助47.13%52.87%157 B 一般51.63%48.17%492 C 没多大帮助45.63%54.37%320 受访总人数474 494 968 4、在文言文学习中，你会自己根据注解或查字词典解决疑难吗？重点班平行班受访总人数 A 会56.94%42.9%634 B 不会，只听老师讲解再记33.73%66.27%335 受访总人数474 494 968 5、在上文言课文之前，你会提前读一读课文，作简单的预习吗？重点班平行班受访总人数 A 经常会55.08%44.92%256 B 有时会45.9%53.94%634 C 不会53.16%46.84%79 受访总人数474 494 968 6、在课堂学习中，你觉得朗读课文会加深自己对课文的理解吗？重点班平行班受访总人数 A 会加深理解51.63%48.37%645 B 感觉也没有多少帮助43.75%55.9%288 C 没帮助41.67%58.33%36 受访总人数474 494 968 7、在学完一篇文言课文后，你还会再读一读课文，自己去多加理解课文吗？重点班平行班受访总人数 A 经常会57.14%42.86%196 B 有时会44.62%55.38%381 C 喜欢的课文会51.26%48.38%277

交叉列表分析技术

调查资料的列表分析技术（一）单向频次表：在市场调查中，一般是以被调研者的人数为基数计算百分比，因为我们对给出的某一答案的人数比例更感兴趣。（二）交叉列表分析技术： 1、含义：是同时将两个或两个以上具有有限类目数和确定值的变量，按照一定顺序对应排列在一张表中，从中分析变量之间的相关关系，得出科学结论的技术。该法在市场调查中被广泛应用，其原因一是交叉列表分析及其结果能很容易地为那些并不具有较深统计知识的经营管理人员接受和理解；二是许多市场调研项目的资料整理分析可以依赖交叉列表分析方法解决；三是通过一系列的交叉列表分析，可以深入分析和认识那些复杂的事物或现象；四是清楚明确的解释能使调研结果很快成为经营管理措施的有力依据；五是这种技术简便易行，尤其被一般市场调研人员更易接受。 2、交叉列表分析中变量的选择和确定在运用交叉列表分析中，对变量的选择和确定是否正确，是关系到分析结果是否正确的关键性因素之一。某保险公司交通事故调查表

加入性别之后加入驾驶里程之后分析居住时间和对本地区百货公司熟悉程度的关系如何转换呢？注意不能简单地说是按行还是按列来计算。如将原来的绝对数表可以变化一下格式，就不能说还按照列来计算百分比了。

4、三变量交叉列表分析法在双变量交叉列表分析的基础上需要加入第三个变量作进一步分析。通过加入第三个变量，原有的双变量分析的结果可能出现四种情况：以上情况分别来举例说明：

请大家将收入水平同拥有昂贵小汽车的双变量交叉列表列出来（不包括教育程度变量），分析收入与拥有昂贵小汽车的关系？结合第一个表格《教育程度与拥有昂贵小汽车的关系》，我们得出什么样的结论？平均年龄与出国游愿望之间的关系家庭规模与经常外出吃快餐之间的关系

第12章列联表和对应分析

第十二章列联表和对应分析我们前面介绍的相关分析可以用来分析定量变量之间的关系，但不能用于定性变量的分析。本章介绍的列联表检验和对应分析方法则可以用来分析定性变量之间的关系。第一节列联表与独立性检验【例12.1】美国的一般社会调查（General Social Survey ）是由美国芝加哥大学的民意调查中心进行的一项随机抽样调查，调查对象为18岁以上的成年人。调查中获得了居民的婚姻状况和幸福状况方面的数据。下面我们根据1996年的调查结果来分析两个变量之间的关系（数据文件gss96.sav ）。在调查中，婚姻状况的取值为已婚、丧偶、离异、分居和未婚（分别用1-5表示）；幸福状况的取值为：非常幸福、比较幸福和不太幸福（分别用1-3表示）。在SPSS 软件中打开数据文件，选择“分析”→“描述统计”→“交叉表”，把“婚姻状况”设为行变量，把“幸福状况”设为列变量，可以得到表12-1所示的列联表。从表中我们可以看出，从婚姻状况看，已婚人员的比重最高；从幸福状况看，比较幸福的人员比重最高。但从表中我们很难直观地看出两个变量之间的内在联系。表12-1 婚姻状况和幸福状况列联表幸福状况合计非常幸福比较幸福不太幸福婚姻状况已婚 574 726 82 1382 丧偶 70 149 59 278 离异 83 292 79 454 分居 14 73 30 117 未婚 136 419 99 654 合计 877 1659 349 2885 要研究二维列联表中的两个变量是否相互独立，可以使用我们在非参数检验中讲过χ2 检验。检验的零假设和备择假设为 H 0：婚姻状况和幸福状况这两个变量相互独立；H 1：婚姻状况和幸福状况不相互独立。假定样本量为n ，列联表有r 行、s 列，表中各行的合计值分别为r i R i ,,2,1,Λ=，各列的合计值分别为s j C j ,2,1,Λ=。每个单元格中的频数为j i O ,。在零假设成立，即行变量和列变量相互独立时，每个单元格频数的期望值可以按照式（12-1）计算： n C R n n C n R E j i j i ij ?= ??= （12-1）显然，如果期望频数ij E 和观测频数ij O 相差不大，则零假设可能是正确的；如果二者差别很大，则零假设可能不成立。按照式（12-2）构造检验统计量：

交叉表分析

data05-02为某公司工资数据（n=15）。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。可以利用data05-01中的数据，使用变量occcat80为工作性质分类，region为地区，childs 为每个家庭的孩子数。将childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析。列联表（交叉表）分析 1、项目名称 Crosstabs过程 4、实训原理 Crosstabs过程用于定类数据和定序数据进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表，并计算相应的百分数指标。 4-1 列联表分析的含义与任务在实际分析中，当问题涉及到多个变量时，我们不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。很明显，如果还采用单纯的频数分析方法显然不能满足要求。因此，我们需要借助交叉分组下的频数分析，即列联表分析。列联表分析的主要任务有两个：（1）根据样本数据产生二维或多维交叉列联表。交叉列联表是两个或两个以上变量交叉分组后形成的频数分布表。（2）在交叉列联表的基础上，分析两变量之间是否具有独立性或一定的相关性。 4-2 卡方检验的原理为了理解列联表中行变量（Row）和列变量（Column）之间的关系，我们需要借助非参数检验方法。通常采用的方法是卡方检验。和一般假设检验一样，卡方检验主要包括三个步骤：（1）建立零假设：行变量和列变量相互独立。（2）选择和计算检验统计量。列联表分析中的检验统计量是Pearson卡方统计量。其公式为：

spss交叉表分析方法与步骤

spss中交叉分析主要用来检验两个变量之间是否存在关系，或者说是否独立，其零假设为两个变量之间没有关系。我们在实际的工作中，经常用交叉表来分析比例是否相等。比如我们来分析一下，不同的性别对不同的报纸的选择有什么不同，就是要用交叉表分析了，下面是具体的方法。 spss交叉表分析方法与步骤 1、在spss中打开数据，然后依次打开：analyze--descriptive--crosstabs，打开交叉表对话框 2、将性别放到行列表，将对读物的选择变量放到列，这样就构成了一个交叉表 3、接下来我们要设置输出的结果，点击statistics，打开一个新的对话框 4、勾选chi-square（卡方检验），勾选phi and cramer's V（衡量交互分析中两个变量关系强度的指标），点击continue，回到交叉表对话框 5、点击cells，设置cell中要展示的数据 6、在这里勾选observed（各单元格的观测次数），勾选row（行单元格的百分比），点击continue，回到交叉表对话框 7、点击ok按钮，输出检验结果 8、先看到的第一个表格就是交叉表，性别为行、选择的读物为列 9、卡方检验结果：我们主要是看pearson卡方检验，sig值小于0.05，因此我们认为不同的性别的人对周末读物的选择有显著的差别 10、最后一个表格，输出的是phi值和V值，两个都是代表两个变量之间的关系的紧密度的，数值小于0.1说明关系不紧密，即性别与周末读物的选择没有明显的关系，这个结论和上面的卡方检验有出入，所以我们需要进一步进行两两比较。学习统计学：https://www.360docs.net/doc/024093263.html,/tongjixue/

SPSS问卷分析篇之非参数检验——交叉表分析

SPSS问卷分析篇之非参数检验——交叉表分析 SPSS问卷分析篇之非参数检验——交叉表分析标签：SPSS 调查问卷销售渠道 --------------------------------------------------------> 【概念】均值检验、方差检验都是针对综述变量并涉及总体的的统计参数，但在数据分析的过程中，有很多类别数据或顺序数据，对这些数据的分析主要是应用频数及分布特征来分析，这类分析统称为非参数统计分析。非参数检验是对非参数统计分析的显著性进行检验，与参数检验相比，对数据分布、数据测量尺度没有特别要求，计算较为简单，特别适用于类别测量或顺序变量的统计分析。对于一个调查样本，通常会利用分组变量，将调查样本划分为若干个相互独立的子样本，通过统计各子样本的调查结果，发现各子样本的差别或联系，应用多个独立样本的非参数检验，判断这些差别或联系的显著性，进

而判断分组变量是否有统计意义。如在市场调查中，用个人资料对调查样本进行分组，并分析这些分组在不同问题上是否存在差异，此时就需要使用非参数检验的方法（多样本非参数检验）。在调查问卷分析中，经常要用到多个分组变量进行交叉统计分析，并对分析结果的显著性进行检验，此时可用SPSS菜单crosstable功能的卡方检验。【案例】假设我们已经取得某调查问卷数据，其中包含字段：购买休闲服地点（步行街、街道服装店、百货店、综合购物广场、综合超市、服装批发市场、其他）；性别（男、女）；现在我们想知道性别在购物地点的选择上有没有差异。 1、SPSS——analysis——描述统计——crosstable 2、统计量中选择“卡方”检验 3、结果

交叉表分析时需要注意的问题

交叉表分析时需要注意的问题使用Pearson Chi-Square检验要求各单元的期望频数均大于5或者小于5的比例不能超过20%；当单元格的期望频数小于5的比例超过20%，或者当样本数小于20时，需要进行Fisher精确检验结果（Fisher's Exact Test）。若要在结果中显示Fisher精确检验结果（Fisher's Exact Test）需要在操作过程中单击按钮，弹出Exact Tests子对话框，如下图所示。 Exact Tests子对话框是针对2*2以上的行*列表设定计算确切概率的方法，系统默认是具有渐进分布的大样本数据的计算（Asymptotic only）。如果是大样本，单元格的期望频数小于5的比例超过20%，精确计算则选择：蒙特卡罗模拟（Monte Carlo）。蒙特卡罗模拟默认进行10000次模拟，给出99%置信区间。这些默认值均可更改。置信区间常用的值为90、95、99。Number of Samples参数框中通常输入样本量的数值。如果是小样本则必须选择：确切计算（Exact）。确切计算默认计算时间限制在5分钟内。下图是以利用data05-01中的数据，使用变量occcat80为工作性质分类，region 为地区，childs为每个家庭的孩子数。将childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析时进行精确计算的操作选

择。若需要检验的变量为定距以上的变量，则进行交叉表分析前需要把变量先转化为定类或定序变量。 data05-02为某公司工资数据（n=15）。使用变量性别sex、收入高低earnings分析男女经理间薪金是否平等。可以利用data05-01中的数据，使用变量occcat80为工作性质分类，region为地区，childs 为每个家庭的孩子数。将childs为行变量，occcat80为列变量，region为控制变量选入Layer of框中，进行交叉表分析。

交叉列联分析

3.5 交叉列联表分析在实际分析中，除了需要对单个变量的数据分布情况进行分析外，还需要掌握多个变量在不同取值情况下的数据分布情况，从而进一步深入分析变量之间的相互影响和关系，这种分析就称为交叉列联表分析。当所观察的现象同时与两个因素有关时，如某种服装的销量受价格和居民收入的影响，某种产品的生产成本受原材料价格和产量的影响等，通过交叉列联表分析，可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。因此，数据交叉列联表分析主要包括两个基本任务：一是根据收集的样本数据，产生二维或多维交叉列联表；二是在交叉列联表的基础上，对两个变量间是否存在相关性进行检验。要获得变量之间的相关性，仅仅靠描述性统计的数据是不够的，还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。常用的衡量变量间相关程度的统计量是简单相关系数，但在交叉列联表分析中，由于行列变量往往不是连续变量，不符合计算简单相关系数的前提条件。因此，需要根据变量的性质选择其他的相关系数，如Kendall等级相关系数、Eta值等。SPSS提供了多种适用于不同类型数据的相关系数表达，这些相关性检验的零假设都是：行和列变量之间相互独立，不存在显著的相关关系。根据SPSS检验后得出的相伴概率（Concomitant Significance）判断是否存在相关关系。如果相伴概率小于显著性水平0.05，那么拒绝零假设，行列变量之间彼此相关；如果相伴概率大于显著性水平0.05，那么接受原假设，行列变量之间彼此独立。在交叉列联表分析中，SPSS所提供的相关关系的检验方法主要有以下3种：（1）卡方（χ2）统计检验：常用于检验行列变量之间是否相关。计算公式为：（3.11）其中，f0表示实际观察频数，f e表示期望频数。卡方统计量服从（行数-1）′（列数-1）个自由度的卡方统计。SPSS在计算卡方统计量时，同时给出相应的相伴概率，由此判断行列变量之间是否相关。

百事问卷分析——交叉表分析

1．年龄与不喝原因的交叉分析

从上表数据显示可知：年龄在15一下的不喝的原因只要是担心发胖。是因为，小孩子正是发育长身体的时候，一般刺激性饮料都会有一定的激素，引起发胖。年龄在16-25岁的不喝的原因主要是对身体不健康，而且其他的选项所占的比例也很大，且都很均匀。证明在这个年龄段的人对自身的要求和对饮料的要求都不相同，所以做出的选择也不相同，这个年龄段是百事消费者最活跃的一部分。年龄在26-35岁和36-45岁不喝的主要原因都是对什么题健康不利，在这一部分年龄阶段的人，具有了一定的思想水平，受教育程度比较高。都是社会的中坚力量，工作忙，所以对日常生活中的饮食很挑剔，注重养生，所以对于身体的健康看的很重。而46岁以上的人群就更不用说了，属于老年阶层，对身体健康的要求更加高。 2．性别与是否喝碳酸饮料的交叉分析：

由此表可知：男性喝碳酸饮料的人数比例是36%，女性喝碳酸饮料的人数比例是39%。男性不喝的比例是13%，女性不喝的比例是12%。可以看出，在喝2碳酸饮料方面，女性要比男性多一点。但是也相差不大。因为，碳酸饮料是一种很普遍的饮品。是否喝和受性别的影响不大。不管是男女性，在特定的环境下，都有是否选择喝碳酸饮料的可能。 3．一月喝几次与年龄的交叉分析

年龄在15以下的在1-3,7-9,10次以上都是占相同的比例，也就是说小孩子是很极端的，或许非常喜欢喝可乐的小孩子一个月要喝10次以上，而不喜欢喝的小孩子就会喝得很少，只是在必要的时候喝一下。也有可能受家长的影响，控制了喝的次数。年龄在16-25岁的和年龄在36-45以及46岁以上的都主要是喝1-3次，其原因是，在16-25这部分年龄的人，都是属于年轻善变，追求新鲜感的年轻人，市场上层出

交叉列联表分析步骤

交叉列联表分析步骤 1【分析】—【描述统计】—【交叉表】【精确】一般情况下，"精确检验"（Exact Tests）对话框的选项都默认为系统默认值，不作调整。【统计量】

【单元格】【格式】

2 结果分析：职称* 学历交叉制表学历合计本科专科高中初中职称高级工程师计数 1 1 1 0 3 职称中的% 33.3% 33.3% 33.3% .0% 100.0% 学历中的% 25.0% 25.0% 20.0% .0% 18.8% 总数的% 6.3% 6.3% 6.3% .0% 18.8% 工程师计数 1 3 0 0 4 职称中的% 25.0% 75.0% .0% .0% 100.0% 学历中的% 25.0% 75.0% .0% .0% 25.0% 总数的% 6.3% 18.8% .0% .0% 25.0% 助理工程师计数 2 0 1 3 6 职称中的% 33.3% .0% 16.7% 50.0% 100.0% 学历中的% 50.0% .0% 20.0% 100.0% 37.5% 总数的% 12.5% .0% 6.3% 18.8% 37.5% 无技术职称计数0 0 3 0 3 职称中的% .0% .0% 100.0% .0% 100.0% 学历中的% .0% .0% 60.0% .0% 18.8% 总数的% .0% .0% 18.8% .0% 18.8% 合计计数 4 4 5 3 16 职称中的% 25.0% 25.0% 31.3% 18.8% 100.0% 学历中的% 100.0% 100.0% 100.0% 100.0% 100.0% 总数的% 25.0% 25.0% 31.3% 18.8% 100.0% 卡方检验值df 渐进Sig. (双侧) Pearson 卡方18.533a9 .029 似然比20.629 9 .014 线性和线性组合 2.617 1 .106 有效案例中的N 16

交叉表分析

交叉表分析

交叉列联分析

交叉列联表分析

SPSS学习系列17. 交叉表与多选题

spss如何做交叉表分析

第十四章--交叉表分析法(课件)

应用SPSS软件进行列联表分析

调查问卷分析(交叉列表,班级)

交叉列表分析技术

第12章列联表和对应分析

交叉表分析

spss交叉表分析方法与步骤

最新交叉列表分析技术

SPSS问卷分析篇之非参数检验——交叉表分析

最新spss 列联表各按钮介绍

交叉表分析时需要注意的问题

交叉列联分析

百事问卷分析——交叉表分析

交叉列联表分析步骤

最新交叉列表分析技术

交叉表分析

交叉表分析

交叉列联分析

交叉列联表分析

SPSS学习系列17. 交叉表与多选题

spss如何做交叉表分析

第十四章--交叉表分析法(课件)

应用SPSS软件进行列联表分析

调查问卷分析(交叉列表,班级)

交叉列表分析技术

第12章 列联表和对应分析

交叉表分析

spss交叉表分析方法与步骤

最新交叉列表分析技术

SPSS问卷分析篇之非参数检验——交叉表分析

最新spss 列联表各按钮介绍

交叉表分析时需要注意的问题

交叉列联分析

百事问卷分析——交叉表分析

交叉列联表分析步骤

最新交叉列表分析技术

第12章列联表和对应分析