心理测量学重点

心理测量学

第一章概论

一、测量：根据一定的法则使用量尺对事物的属性进行定量描述的过程。

二、测量的精确度决定于测量对象本身的性质（确定型、随机型、模糊型）和测量工具的精密性。

三、测量的基本要素：1.参照点（1）绝对参照点（有绝对的零点，可进行乘除运算）（2）相对参照点（以人确定的零点，只可加减）

2.单位：条件：要有确切的意义和相等的价值

四、测量的量表：称名量表、顺序量表、等距量表（可进行加减运算）、比率量表（可进行加减乘除）

五、心理与教育测量的定义：根据心理学和教育学法则给人的心理特质和教育成就指派数字，或者根据一定的心理学和教育学理论在测验上对人的心理特质和教育成就进行定量描述的过程。

六、编制一个测验应当具备下列四个基本条件：（1）行为样本。

（2）标准化：指测验的编制、实施、记分以及测量分数解释的程序的一致性。

标准化条件：测验内容、施测条件、评分规则和测验常模的标准化。

（3）难度或应答率。（4）信度和效度。

七、1918年，桑代克提出“凡客观存在的事物都有其数量”。1939年，麦柯尔进一步提出“凡有其数量的事物都可以测量”

作业补充题：1、为什么说心理与教育测验的分数本质上是顺序量表上的分数？

答：从本质上讲，心理与教育测量的量表属于顺序量表。

（1)从使用的参照点来说，教育测量和心理测量领域的参照点均为相对零点；

（2）从使用的单位来说，教育与心理测量的单位远没有其他测量的单位成熟完善。

第二章简史

一、现代心理与教育测量的起源：（1）1879年德国心理学家冯特在莱比锡大学建立了世界上第一个心理实验室。

（2）高尔顿把统计方法应用到对个别差异资料的分析之中。学生皮尔逊创立了积差相关公式。

（3）卡特尔 1890年卡特尔在《心理》杂志上发表《心理测验与测量》一文。首提“心理测验”。

（3）比内和西蒙在1905年合作完成世界上第一个智力测验量表——比内-西蒙量表。

第三章经典测验理论的基本假设

一、心理特质：表现在一个人身上所特有的相对稳定的行为方式。

心理特质的可测性假设：1、具有比较稳定的特点；2、可量化；3测验中的行为可预测测验外的行为；4、优缺点共存；5、误差存在于测验过程中；6、测量能以公平和无偏见的方式进行；7、测量有其社会价值。

测量的步骤：对所测量的特质进行界定；编制测量项目；制定评分标准和解释体系。

二、测量误差：指在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。

测量误差的种类：1、随机误差：由与测量目的无关的偶然因素引起的而又不易控制的误差。（影响测验的不准确、不一致） 2、系统误差：由与测量目的无关的变因引起的一种恒定而有规律的效应。（影响测验的不准确）

测量误差的来源：测量工具；测量对象；施测过程。

三、真分数：反映被试某种心理特质真正水平的那个数值称作该特质的真分数（T分数）。把实测的分数称作该特质的观察分数。其中，观察分数越接近真分数，说明这次测量的误差越小。

CTT 的数学模型 X=T+E （X为观察分数，E为随机误差） T=V+I （V为目标真分数，I为非目标真分数）所以 X=V+I+E

根据CTT推导出被试观察分数的方差等于其真分数方差与误差分数方差之和。（书P47）

平行测验：如果两个题目不同的测验测得的是同一特质，并且题目形式、数量、难度、区分度以及测验得分的分布都是一致的。则这两个测验被称为彼此平行的测验。

第四章测量信度

一、信度：指测量结果的一致性或稳定性（只受随机误差影响）

（书P50）定义：1、信度是一个被测团体的真分数的变异数与实得分数的变异数之比。

2、信度是一个被试团体的真分数与实得分数的相关系数的平方。

3、信度是一个测验x（A卷）与它的任意一个“平行测验”x’（B卷）的相关系数。

二、信度的作用

1、信度是测量过程中所存在的随机误差大小的反映

2、信度可以用来解释个人测验分数的意义

3、信度可以帮助进行不同测验分数的比较

三、重测信度：指用同一个量表对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的皮尔逊积查相关系数。适用于两个变量都是连续数据，总体呈正态分布，之间为线性关系时。

使用的前提条件：1、所测量的心理特性必须是稳定的；2、遗忘和练习的效果基本上相互抵消；3、在两次施测的间隔期内，被试在所要测查的心理特质方面没有获得更多的学习和训练。

复本信度：指两个平行的测验测量同一批被试所得结果的一致性程度。（建立复本有难度）

使用的前提条件：1、要构造出两份或两份以上真正平行的测验；2、被试要有条件接受两个测验；3、测量的是同一种心理特性。

分半信度：指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。

使用前提条件：在只能施测一次或没有复本的情况下使用。可按题号的奇偶、难度、内容分半。斯皮尔曼-布朗公式只有在两半测验分数的变异数相等时才能使用。当一个测验无法分成对等的两半时，分半信度不宜使用。

同质性信度：也叫内部一致性系数，指测验内部所有题目间的一致性程度。库德-理查逊公式（KR-20、K-R21）适用于二分法计分测验，当所有题目的难度接近时。克龙巴赫α系数可以处理任何测验的内部一致性系数的计算问题。

评分者信度：指多个评分者给同一批人的答卷进行评分的一致性程度。当评分者人数多于两个时，评分者信度可用肯德尔和谐系数进行估计。

提高测量信度的常用方法

1、适当增加测验的长度

2、使测验中所有试题的难度接近正态分布，并控制在中等水平

3、努力提高测验试题的区分度

4、选取适当的被试团体，提高测验在各同质性较强的亚团体上的信度

5、主试者要严格执行实测规程，评分者要严格按标准给分，实测场地要按测验手册的要求进行布

置，减少无关因素的干扰。

第五章测量效度

一、效度: 指一个测量或量表实际能测出其所要测量的心理特质的程度。

性质：（1）效度是针对测验结果的。（2）效度是针对某种特定的测量目的的。（3）效度只有程度上的差异，不是一个“全”和“无”的概念。

定义：与测量目的有关的真实变异数（由所要测量的变因引起的有效变异）与总变异数（实得变异数）的比率。（书P68）

概念注意点：（1）效度是一个相对的概念。（2）效度是测量的随机误差和系统误差的综合反映。（3）判断一个测量是否有效要从多方面搜集证据。

信度与效度的关系：

1、信度高是效度高的必要而非充分条件。当随机误差的变异数减小时，真实分数的变异数增加，测

验信度随之提高。信度的提高只给有效变异数的增加提供了可能，至于是否能提高效度，还要看系统误差变异数的大小。可见，信度高不一定效度高。但一个测验要想效度高，真分数的变异数必须占比较大的比重，即测验的信度必须高。

2、测验的效度受它的信度制约。（公式在书P69）

二、效度的评估

1、内容效度：指一个测验实际测到的内容与所要测量的内容之间的吻合程度。内容效度主要应用于成就测验，因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度。也适用于某些选拔和分类的职业测验。不适用于能力倾向和人格测验。

内容效度的确定方法：专家判断（定性分析）、内容效度比、重测、双向细目表、经验推测法。

2、结构效度：指一个测验实际测到所要测量的理论结构和特质的程度。包括区分效度、效标效度和预测效度。

结构效度的确立步骤：提出理论假设；依据理论框架，推演出有关测验成绩的假设；用逻辑的和实证的方法来验证假设。

估计方法：测验内部寻找证据法，测验之间寻找证据法，考查测验的实证效度法，多种特质—多种方法矩阵法，因素分析法。

3、实证效度（效标关联效度）：指一个测验对于特定情境中的个体的行为进行估计的有效性。

（1）根据效标资料搜集的时间差异，实证效度可以分成：同时效度和预测效度。

（2）效标：衡量一个测验是否有效的外在标准。效标与测验分数之间呈线性分布时用皮尔逊积差相关系数。

（3）实证效度的估计方法：相关法；区分法；命中率；基础率、灵敏度和确认度。

四、提高测量效度的方法：

1、精心编制测验量表，避免出现较大的系统误差

2、妥善组织测验，控制随机误差

3、创设标准的应试情境，让被试发挥正常水平

4、选好正确的效标，定好恰当的效标测量，正确地使用有关公式。

第六章测验的项目分析（计算题）

项目的分析包括量的分析和质的分析两个方面。

一、测验项目的难度（难度系数越大，题目越容易）

1、二分法计分项目的难度

（1）通过率

P=R/N （P代表项目难度，N为全体被试数，R为答对该项目的人数）

（2）极端分组法

当被试分数较多时，先将被试按照测验总分从高到低排列，分别计算高分组和低分组的通过率，然后求项目的难度。通常以27%为分界值。

P=（P高+P低）/2 或 P=（高分组通过人数/高分组人数+低分组通过人数/低分组人数）/2 2、非二分法计分项目的难度

P=x/X （x为被试在某一项目上的平均得分，X为该项目的满分）

测验难度水平的确定

3、难度的等距变换（书P85）

当样本容量很大时，测验分数将接近正态分布，此时，我们可以根据正态分布曲线，将试题的难度P 作为正态曲线下的面积，转换成具有相等单位的等距量数，即Z分数。

4、难度对测验的影响

（ 1）、测验难度影响测验分数的分布形态：若测验项目的难度普遍较大，被试的得分普遍较低，则测验分数集中在低分端，分数分布呈现正偏态；如果测验题目的难度普遍较小，被试的得分普遍较高，则测验分数集中在高分端，分数分布呈现负偏态。

（2）、测验难度影响测验分数的离散程度：当难度集中在0.5时，分数的分布范围较广，方差较大，测验信度值较高；难度集中在两端即不是太难就是太易时，分数分布范围最小，测验信度值较低。

二、测验项目的区分度（D）：指测验项目对被试心理品质水平差异的区分能力。当难度为0.5时，区分度最大。

计算： 1、项目鉴别指数法 D=P高-P低（P高与P 低分别为高分组和低分组在该项目上的通过率）

2、相关法（书P90）题目鉴别指数评鉴

D的最大值与项目难度的关系（学会如何计算）

三、项目难度受猜测影响的校正

1、猜测校正的性质与公式：

选择题中为平衡机遇对难度的影响，吉尔福特提出的可用的校正公式

CP=P-(Q/(K-1)) 或 CP=(KP-1)/(K-1)

CP为校正后的通过率，P为实际通过率，K为备选答案数目，Q=1-P。

2、猜测校正的优缺点：

优点（1）通过猜测校正可避免降低测验的信度。

（2）校正后的得分可以反映被试的真正水平和能力。

（3）在教育测验中，可以培养被试诚实的美德。

（4）比较公平。

缺点（1）公式的基本假设不成立。

（2）只有被试能答完全部试题，猜测校正就无实质性作用。

（3）不采用猜测校正对信度并无重大影响。

（4）有时会出现无法解释的现象。

（5）需要猜测，不符合考试。

第七章测验常模

一、分数转换

原始分数与导出分数（导出分数包括百分等级分数、标准分数、T分数）

百分等级分数计算：1、未分组分数资料：

Pr=100-（100R-50)/N Pr为百分等级，R为排名顺序的序号，N为被试总人数。

2、分组分数资料：Pr=(100/N)*[(X-L)f/i+Fb] X为被试原始分数，L为X所在组的下限，f为X所在组的次数，Fb为X所在组以下各组次数之和，i为组距，N为被试总人数，Pr为百分等级。

二、常模编制

常模：根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表。常模就是各种导出分数，用平均数和标准差表示。

编制常模的三步：1、确定有关的比较团体；2、获得该团体成员的测验分数；3、把原始分数转化为量表分数。

测验的常模可分为：发展常模量表和组内常模量表

第八章心理与教育测验的编制与实施

测验：心理测量的工具

基本程序：

1、确定测验目的：明确测量对象；明确测量目标；明确测量用途

2、制定编题计划

3、编辑测验项目：收集测验资料（资料要丰富，资料要有普遍性，资料要有趣味性）；选择项目形式；编写测验项目

4、预测与项目分析

5、合成测验：测验项目的选择（指标：测验的性质，项目的难度，项目的区分度。）；测验项目的编排（方式：并列直进式和混合螺旋式）；编制复本

6、测验标准化（标准化是指测验的编制、施测、评分以及解释测验分数程序的一致性）：测验内容，施测过程，测验评分，测验分数的解释。

7、鉴定测验：信度（测验的可靠性，即用同一测验多次测量同一团体，所得结果之间具有一致性。）、效度（测验的有效性，即一个测验在多大程度上能够测得它所要测得的东西）、测验量表与常模

8、编写测验说明书

第九章测验等值

测验等值来源于测量实践的需要。

1、测验等值的实质：通过对考核同一种心理品质的多个测验形式做出测量分数系统的转换，使这些不同测验形式的测验分数之间具有可比性。

2、测验等值中所说的测量分数系统的转换与测验原始分数及导出分数之间的转换不相同：等值转换的目的是为了比较两个不同测验形式之间的实测分数，导出分数转换是为了将一个实测分数转换到一个可评价个体相对位置的分数系统上去。等值转换是两个或多个不同测验形式分数系统的转换，导出分数转换是一个测验形式不同分数系统的转换。

3、测验等值的条件：同质性（同一种心理品质）、等信度、公平性、可递推性、对称性、样本不变性。

4、测验等值中的专用技术名词：（1）测验等值设计：为了寻找不同测验形式之间的等值关系而预先对数据的采集方法、等值实现的途径、等值的计算方法进行周密的设计。

（2）锚测验：采用同一组测验试题来关联两个待等值的测验形式，以便寻找两形式的等值关系。

（3）数据平滑法：对样本分布作一些数据处理，使得分布曲线趋于光滑。

（4）等值标准误差：测量学上把由抽样引起的等值误差称为等值的随机误差，评价等级随机误差大小的指标称为等值标准误差。

（5）等值偏差：等值处理方法不当引起的等值误差称为等值的系统误差，也称等值偏差。

5、测验等值结果的表示方法：表列法、公式法、图示法。

6、测验等值的一般步骤：确定等值目标、进行等值设计、施测并采集测验数据、选择一个等值的操作性定义、进行等值计算，获得结果、评价等值结果。

7、测验等值关系计算的方法：

（1）等百分位等值（书P159）

原理：两个分数，一个在测验形式x上，另一个在测验形式y上，如果这两个分数在各自测验中所处的百分等级相等，这两个分数就被认为是等值的。

（2）线性等值：P160

原理：两个分数，一个在测验形式x上，另一个在测验形式y上，如果这两个分数在各自测验中的标准分数相等，则这两个分数是等值的。

第十章目标参照测验

一、1962年戈莱塞和克劳斯首先提出目标参照测验的概念。

二、目标参照测验：当一个测验是以某一明确界定的内容范围为基础编制而成，并且其分数是参照该内容所要求的绝对标准进行解释。目标参照测验的目的一般在于了解被试在某一行为领域的绝对水平，从而判定他是否达到了从事此项行为的最低标准。（例如中学会考）

三、目标参照测验和常模参照测验的区别：前者着重于学生之间的比较，后者关心有没有达到预定的学习目标。常模参照测验适用于选拔性考试和总结性评定；而目标参照测验适用于诊断和发现学生的不足，从而为改进教学提供反馈信息。

四、目标参照测验的项目分析：1、内容范围的确定（具有边界，有明确结构）；2、测验项目的内容效度分析（专家评定）；3、测验项目测难度（通过率）和区分度分析（难度差值和相关系数）

五、目标参照测验的预测方法：前测-后测方法、已接受教学组-未接受教学组方法、对照组方法。

六、目标参照测验的信度估计方法：1、分类一致性信度（对测验的分类一致性的度量指标），考察被试在同一测验的两次施测中或两个复本的施测中是否被分在同一类中（书P180公式）；2、方差分析方法。

七、目标参照测验的目的一般不在于鉴别个体差异，而在于了解个体在所测内容上的掌握水平。

#作业题目补充

1、目标参照测验的题目区分度可以通过哪些方法来确定？

（1）难度差值：掌握组-未掌握组鉴别指数（D）、个人获得指数（DIG）

（2）相关系数

2、目标参照测验的信度和效度为何不适宜以相关系数为指标？

以相关系数表示的测验信度的高低在很大程度上受到受测者团体异质性的影响，即被试异质性越高，测验分数分布就越广，从而相关系数越高，测验信度相应也越高，因而这些信度在目标参照测验上的应用价值不免受到怀疑。

第十一章学绩测验

一、学绩测验是对个体在一个阶段的学习或训练之后所掌握的知识和技能的发展水平的测定。

二、学绩测验的分类：

1、按测验的编制方法分：教师自编课堂测验和标准化学绩测验

2、按测验的内容分：单科测验和多科测验或单元测验和总测验

3、按测验的用途分：考察性测验和诊断性测验

4、按测验评分系统的参照系分：常模参照测验和目标参照测验（常模参照测验易于横向比较，常用于选拔目的的测量；目标参照测验以教学目标为准，常用于鉴定学生合格与否）

5、按测验的题型分：定向反应型（客观型试题）和自由反应型（论文式试题）

三、标准化学绩测验的基本要求：命题组卷标准化、施测标准化、评分标准化、测验分数解释标准化。

四、标准化学绩测验的编制：

1、确定测验目的，选定测验编制方法；

2、分析测量目标，拟定测验编制计划；

3、编题征题与选题组卷；

4、调查测验质量参数，编制测验常模；

5、编写测验指导书，正式出版发行。

五、国外常用标准化学绩测验：斯坦福成就测验，适用于1~9年级，是综合性学绩考查测验（常模参照测验）；关键数学算数诊断测验，适用于学前~六年级。

第十二章、第十三章能力测验

一、智力的心理测量学理论：（智力是指适应环境的能力和通过经验进行学习的能力）

1、智力二因素理论：英国心理学家斯皮尔曼提出G因素和S因素，G因素包括经验的领会、关系推断和相关推理，其中G因素是智力的核心。S因素指特殊因素，只在某些特殊情况下才会表现出来。

2、智力的多因素论：吉尔福特拓展瑟斯顿的理论，认为智力包括三个维度，内容因素、操作因素和结果因素。

3、智力层次理论：美国心理学家弗农提出。第一层是G因素，第二层是言语因素和操作因素，控制着第三层是主要心理能力

4、智力的三元理论：斯滕伯格提出，分为智力成分、智力情境、智力经验。

二、智力的生物学理论：詹森的智力震荡理论。

三、智力的认知心理学理论：斯坦伯格认为智力结构由“成分”组成。

四、个体智力测验

1、比内-西蒙量表：比内和西蒙为诊断异常儿童智力的需要，于1905年编制出世界上第一个智力量表

2、斯坦福-比内量表：是世界上最出名的智力量表比率智商=智龄/实际年龄*100 。以平均数为100、标准差为16的离差智商作为智力评估指标。

3、韦克斯勒量表（提出离差智商）

五、团体智力测验

1、陆军甲乙种测验

2、瑞文推理测验（理论假设源于斯皮尔曼的智力一般因素理论）：瑞文采图推理测验（低水平）、

瑞文标准推理测验（中等水平）、瑞文高级推理测验（高水平）

中国城市版分半信度为0.95

3、认知能力测验：桑代克等编制而成。分为四个部分：初级型、文字测验、数量测验和非文字测

验。

六、具体能力倾向测验：学术能力倾向测验（SAT）（高考）、分辨能力倾向测验（DAT）（初高中教育咨询及就业指导）、一般能力倾向成套测验（GATB）、行政职业能力倾向测验。

七、特殊能力测验：音乐、美术、机械。

八、创造力测验：吉尔福特的发散性思维：流畅性、变通性、独特性。

第十四章人格测量

一、人格的核心是性格

二、1919年，美国武德沃斯发表了第一个自陈人格量表——个人资料调查表，开人格问卷测量之先河。

三、人格测量技术的主要种类：自陈问卷法、投射法、评定法、情境法、行为观察法和晤谈法等。

四、自陈量表特点：1、题量较多，多数用于测量人格的若干特质。2、通常采用纸笔测验。3、计分规则简单而客观。

五、明尼苏达多项人格调查表（MMPI）：566个项目，有十个临床量表、三个效度量表。其中效度量表为：1、说谎量表，分数高表示回答不真实；2、诈病量表，分数高表示诈病或确系严重偏执；3、校正量表，分数高表示一种自卫反应。

六、卡特尔16种人格因素量表（16PF）

七、艾森克人格问卷（EPQ）：由四个分量表构成，包括用于测量被试在精神质（P）、外倾性( E)和神经质（N）三个人格维度上的特征，说谎量表（L）。

八、投射测验：1938年由主题统觉测验的编制者莫瑞最早提出。1921年，瑞士精神病学家罗夏克发表他编制的墨迹测验。

1、投射：个人对客体特征的想象式解释，在这种解释中，个人具有将自己身上发生的心理过程无意识地附着在客体身上的倾向。

2、特点：测验材料没有明确的结构和确切的意义。受测者对测验材料的反应不受限制。测验目的具有明显的隐蔽性。对结果重在获得整体了解。内容多为无明确意义的图片。计分困难。

九、主题统觉测验（TAT）：1935年由美国哈佛大学的心理学家莫瑞和摩根创制。TAT是一种窥探受测者的主要需要、动机、情绪、情操和人格特征的方法。