置信度度量的缺陷和改进

置信度度量的缺陷和改进
置信度度量的缺陷和改进

数据挖掘导论论文

置信度度量的缺陷和改进

摘要:置信度通过确定Y在包含X的事务中出现的频繁度,从而确定Y和X是否相关联。可是这种度量方式也存在着局限性,我们可以通过引入兴趣度/提升度来消除置信度存在的不足。但单独引入提升度也会对某些模型做出错误的评估,这就需要我们通过不断的对比,找出该模型对应的最好度量。

关键词:置信度提升度兴趣因子 IS度量

置信度度量的作用:置信度度量通过规则进行推行具有可靠性。对于给定的规则X→Y,置信度越高,Y在包含X的事务中出现的可能性就越大。置信度也可以估计Y在给定X下的条件概率。

如:

网球拍网球

1 1 1

2 1 1

3 1 0

4 1 0

5 0 1

6 1 1

事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度(X^Y)/D=0.5,置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5,最小置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。

(支持度揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了)

置信度度量存在的缺陷:虽然通过置信度可以知晓事务之间是否存在

关联,但是置信度度量也存在着一些无可避免的缺陷,和自相矛盾。

咖啡咖啡

茶15 5 20

茶75 5 80

90 10 100

其中,关联规则:茶→咖啡

置信度=P(咖啡|茶)=0.75

但P(咖啡)=0.9

?虽然置信度高, 但规则存在误导

?p(咖啡|茶)=0.9375

我们对100人做度量,发现有20人会买茶叶,其中有15人会买喝咖啡,5人不买咖啡,那么我们通过置信度计算发现(买茶→买咖啡)这个的置信度非常高,我们于是可以推算出买茶的人都会买咖啡。但是其实我们看接下来的调查,另外不买茶叶的80人中,有75人买咖啡。不管他是否买茶,买咖啡的人的比例是90%,而买咖啡的买茶者却只占75%,也就是说,一个人如果买了茶,则他买咖啡的可能性从80%降到75%。综上所述,我们可以发现,其实喝茶和喝咖啡其实是两个相对独立事件。所以我们可以概括一下,置信度的缺点,就是置信度度量忽略了规则后件中项集的支持度。

改进置信度度量——引进兴趣度/提升度

从买茶和买咖啡的例子来看,如果考虑买咖啡者的支持度,我们可以发现许多买茶的人也买咖啡,但是,既买咖啡又买茶的人所占的

比例少于所有买咖啡的人所占的比例,这表明买茶者和买咖啡者存在着一种逆相关。

我们可以引入提升度(lift),来计算置信度和规则后件项集支持度的比率:lift(A→B)=c(A→B)/s(B),那么对于二元项集来说,我们可以做这样一个变换:lift(X→Y)=c(X→Y)/s(Y)=(p(X,Y)/p(X))/p(Y)=p(X,Y)/ p(X)p(Y)那么这里,我们则可以把lift(X→Y)称为兴趣因子,表示为I(A,B)通过概率学知识我们可以知道,如果X事件和Y事件相互独立(或者我们称之为满足事件独立性假设),那么p(X,Y)=p(X)*p(Y),那么我们则可以这样来表示兴趣因子的度量:当I(A,B)=1时,我们称A和B是相互独立的,当I(A,B)<1时,我们称A和B是负相关的,否则我们称A和B是正相关的。

拿茶和咖啡的例子来说:置信度=P(咖啡|茶)=0.75

P(咖啡)=0.9

Lift=0.75/0.9=0.8333

因此,买茶叶和买咖啡是负相关。

但是从计算模型,我们可以很轻易地感觉出单纯用兴趣因子来做关联度度量的不靠谱,它存在着一定的缺陷。

例一:

Y Y

X 10 0 10 X0 90 90

10 90 100

Y Y

X 90 0 90 X0 10 10

90 10 100

从表一得出的数据我们可以知道X,Y 是正相关,而表二兴趣因子却将近一,表明了X,Y 是相对独立的,可是我们观察得出,有X 必有Y ,无X 必无Y ,因此二者应该是相关联的。 例二: P P

Q

880 50 930 Q

50 20 70

930

70

1000

{P,Q}和{R,S}的兴趣因子分别为1.02,4.08。这个结果存在着一些问题,P 和Q 的兴趣因子将近1,从理论上说P 和Q 是相对独立的,可是它们同时出现的概率是88%,置信度是0.946;而S 和R 的兴趣因子虽然是4.08,但是它们同时出现的概率只有2%,置信度是28.6%,这表明了{S,R}的关联不及{P ,Q}。在这种情况下,置信度可能是一种更好的选择,因为置信度表明P 和Q 之间的关联94.6%远远强于R 和S 之间的关联28.6%。

从以上两个例子,说明了提升度也是有很大的缺陷的。对此我们可以再引入IS 度量。

IS 度量是用于处理非对称二元变量

),(),(),(B A S B A I B A IS ?==

)

()()

,(B S A S B A S

R R

S

20 50 70 S

50 880 930

70

930

1000

10

)

1.0)(1.0(1.0==

Lift 11

.1)

9.0)(9.0(9

.0==Lift

拿例二的例子来说,{P,Q}和{R,S}的IS 值分别是0.946和0.286,与兴趣因子给出的结果相反,说明了{P,Q}之间的关联强于{R,S}。 当然,IS 度量同样存在着局限性,当评估一对相对独立的项集时,IS=(A,B)=

)

()()

,(B S A S B A s =)()()

()(B S A S B S A S ??=)()(B s A s ?,IS 值取决于S(A)和

S(B ),所以就存在与置信度度量类似的问题,即使是不相关或负相关的模式,度量值也可能很大。

例子表明,某些度量方法对特定的应用效果较好,而对某些模型往往会评估错误,我们在对一个模型进行评估的时候应采用多种度量来比较结果。一个好的度量应具有三个特点: 1) {A,B}=0如果A 和B 是统计独立的

2) {A,B}随P(A,B)单调增长而P(A)和P(B)保持不变

3) {A,B}随P(A)[orP(B)]单调减小而P(A,B)和P(B)[orP(A)]保持不变

参考数据挖掘导论(课本)和老师的课件

证券风险度量方法的比较分析

实习调查报告(本科) 学院数学与统计学院 专业 年级 姓名 论文题目证券风险度量方法的比较分析 指导教师职称教授 成绩 2016年10月17日

证券风险度量方法的比较分析 0引言 近二十年来,随着计算机技术的普及及推广,金融市场世界一体化趋势得到加强,金融衍生工具的广泛使用,使金融创新层出不穷.与此同时,金融市场风险日渐突出,市场风险的度量就成为市场风险管理中的基础和核心.在风险管理中,会涉及许多统计问题,例如,证券价格的变化规律如何?价格与收益作为风险度量对象各有什么特点?如何运用金融工程的技术方法解决我国经济发展中的风险问题等.本文着重分析了度量风险的几种统计指标,并对该几个指标的统计性质进行了对比分析,实证地对有关度量指标进行了计算。 1 证券风险度量方法的发展 20世纪80年代以来,随着信息技术迅猛发展,各国金融创新和自由化的浪潮更是史无前例,金融证券市场的波动进一步加剧。与此同时,出于分散风险的需要,金融衍生工具产生并得到了迅速发展.当衍生工具越来越多地被用于投机而非保值的目的时,出于规避风险的需要而产生的金融衍生工具本身也孕育着极大的风险.近年来,英国巴林银行的倒闭,日本大和银行的巨额交易亏损等都与金融衍生工具的滥用有关。于是,金融证券市场尤其是衍生工具市场的市场风险日益凸现并受到人们的关注,如何有效地测定和控制这些市场风险便成为金融证券机构、投资者和有关监管层所面临的亟待解决的问题。 用方差表示的波动率测量和β系数等风险敏感度指标作为风险的度量,在实践中得到了广泛的应用,同时也都存在着一定的缺陷。因此在风险管理中,仅用一项指标是远远不够的,必须采用多方位立体框架来测量和量化风险。 金融工程技术在一些经济发达国家的应用实践告诉我们,金融工程已经渗透进市场经济的每一个领域,金融衍生工具的广泛使用,使风险管理的面貌发生了很大的改观;同时,金融衍生工具到金融工程的作用,通过干中学,引入一些可被利用的金融工程成果,使金融工程在中国获得实质性的发展,又要认识到中国发展金融工程的条件并不十分理想,要根据中国的实际,谨慎地使用各种金融衍生工具。 2 风险尺度

信度与效度的关系

研究信度与效度的关系 一、信度与效度的定义 信度即可靠性,它指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度,或者说,信度是指测量结果的一致性或稳定性。 效度即准确度,它是指测量工具或测量手段能够准确测出所要测量的变量的程度,或者说能够准确、真实地度量事物属性的程度.二、信度与效度的关系 (一)教育科学研究中信度与效度的关系 信度是研究结果所显示的一致性、稳定性程度,也是对研究结果一致性和稳定性的评价标准。一个具有信度的研究程序,不论其过程是由谁操作,或进行多少次同样的操作,其结果总是非常一致的.效度是一个研究程序的性质和功能,也是对研究结果正确性的评价标准,一个有效度的研究程序,不仅能够明确地回答研究的问题和解释研究结果,而且能够保证研究结果在一定规模的领域中推广。把两者的作用结合起来看,信度和效度是一项教育科学研究活动和结果具有科学价值和意义的保证。研究的信度是研究的效度的一个必要的前提,没有信度,效度不可能单独存在,也就是说,一项研究不可能没有信度却具有效度。 (二)人力资源招聘信度与效度的关系 影响测评信度的因素有很多,主要是系统误差和随机误差.包括测评者的专业性和素质、被测评者本人的心理、侧评工具的稳定性、

环境的稳定性等都会影响测评的可信度。影响测评的效度因素也有很多,如测评工具、测评过程及测评者因素、被测评者状态、效标因素和信度因素等。在实际招聘与录用评估过程中要把握各相关方面,不仅要有专业的测评人员,同时也要在稳定的环境中为被测评者提供一个放松真实的氛围。信度和效度是人才侧评与选拔质量的重要指标.图形形式表现分析得出的信度和效度的三种关系,则会是以下这些样式,如图8—l .图8-2和图8—3所示。所以,:高信度是高效度的必要条件,但非充分条件.即信度高不一定其效度就高,但要想获得较高的测评效度,其信度必定要高, (三)用结构式问卷来测量家长“溺爱孩子”的行为中信度与效

置信区间与置信水平样本量的关系

置信区间与置信水平、样本量的关系 置信区间与置信水平、样本量的关系(2008-10-28 08:39:39)标签:置信区间与置信水平教育分类:数学相关 置信水平Confidence level 置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。 一、置信区间的概念 置信区间又称估计区间,是用来估计参数的取值范围的。常见的52%-64%,或8-12,就是置信区间(估计区间)。置信区间是按下列三步计算出来的: 第一步:求一个样本的均值 第二步:计算出抽样误差。 人们经过实践,通常认为调查: 100个样本的抽样误差为±10% 500个样本的抽样误差为±5% 1,200个样本时的抽样误差为±3% 第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。 举例说明: 美国Gallup(盖洛普)公司就消费者对美国产品质量的看法,对美国、德国和日本三国共计3,500名消费者(每个国家约1,200名)分别进行了调查,调查结果:有55%的美国人认为美国产品质量好,而只有26%的德国人和17%的日本人持同样看法。抽样误差为±3%,置信水平为95%。则这三个国家消费者的置信区间分别为: 国别样本均值抽样误差置信区间 美国55% ±3% 52%-58% 德国26% ±3%23%-29% 日本17% ±3%14%-20% 二、关于置信区间的宽窄 窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息。 假设全班考试的平均分数为65分,则 置信区间间隔宽窄度表达的意思 0-100分100 宽等于什么也没告诉你 30-80分50 较窄你能估出大概的平均分了(55分) 60-70分10 窄你几乎能判定全班的平均分了(65分)

如何保证人才测评的信度和效度

如何保证人才测评的信度和效度 人才测评的主要工作是通过各种方法对被试者加以了解,从而为企业组织的人力资源管理决策提供参考和依据。经过长期的发展和适应不同情况的需要,形成了多种人才测评方法。而人才素质测评作为一项重要的人事技术,已经为越来越多的企业人力资源部门所接受,而如何保证能力素质测评中的信度和效度,也越来越受到关注。下面,就具体案例讲讲如何保证能力素质测评的信度和效度。 一、案例背景 N公司是一家外资工程管理公司,成立于1998年,总部设在上海。随着WTO的开放和工程项目的增多,工程公司在国内如雨后春笋般成长起来,就此拉开了人才竞争的序幕。尤其是上海,工程项目管理人才的争夺十分激烈,N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力,保留现有中高层骨干人才,并让他们“适人适位”,N公司请来了北大纵横管理咨询公司,希望通过专业评估解决这个问题。 二、建立人才能力素质模型并实施测评 (一)中高层能力素质模型及测评方法的确定 鉴于本次测评的对象是N公司的中高层管理人才和精英人物,测评的目的是为了保留人才、适人适岗,因此经过双方共同探讨,项目组在北大纵横经理人能力素质指标体系的基础上,结合N公司的实际情况,选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时,采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法,来确定各测评因素在管理素质和业务素质上的权重。 通过向N公司老总介绍人才测评的方法及工具,大家一致选定评价中心技术进行本次人才测评,并主要运用三类测评工具:心理测验、深度面谈和情景模拟测验。 (二)测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起,围绕测评因素,结合N公司实际情况进行测试题目的设计,并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试,人机对话;深度面谈设计了20个题目,涵盖了测评的各个维度;情景模拟采用案例分析和主题演讲两种测评工具,其中案例分析题库包含12题,主题演讲题库包含15题,被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中,测评小组成员由N公司内部专家、外部专家,以及北大纵横项目组组成。在测评实施前,对测评小组进行培训,使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问,被测评人根据提问回答问题,与测评小组进行双向沟通后,由测评小组根据评分标准对被测评人的表现现场打分,填入评分表;16PF人格要素测试要求被测试人进行40分钟的人机对话,由测评小组保存有效答卷。 由于不同的测评者其衡量的尺度会存在差异,为保证各个被试者成绩排序的正确性,在测评时,向测评者提供“成绩比较表”,供其记载各个被试者的各项测试的评分,便于他们进行比较。 4、分析测评结果并统计成绩。采用肯德尔和谐系数法对每个被测评者在各个测评要素上的得分进行评分者信度分析,并结合各测评要素在管理素质和业务素质方面的权重,计算出被测评人在业务素质和管理素质上的得分。测评结束后,测评小组对被测人员进行了问卷调查,了解他们对测评效果的看法。 三、测评为保证信度和效度所采取的措施 (一)保证测评信度采取措施分析 1、16PF测试采取的是计算机标准化题目的方式,计算机答题、计算机处理结果。被测试人员全部独立进行测试,并在规定时间内完成了测试。 2、深度面谈使用了20个题目,围绕测评因素的各个维度对被测评者进行考察。面谈进行顺利,被测人员都能较积极配合回答问题,和主试人进行较好的双向交流。 3、情景模拟采用案例分析和主题演讲两种测评工具,被测人员从两个题库中各抽取1题,测评小组根据其表现进行现场评估。测评得到了被测人员的积极配合,都能就问题提出自己的见解。 4、为增加评分者信度,本次测评工作专门成立了测评小组,并在测评前熟悉了整个测评程序和操作;各类能力素质附有评分标准,各类试题附有评分参考,力图对被测试者的表现进行量化分析;测评中,向测评者提供“成绩比较表”,

概率论与数理统计期末考试之置信区间与拒绝域

概率论与数理统计期末 置信区间问题 八(1)、从某同类零件中抽取9件,测得其长度为( 单位:mm ): 设零件长度X 服从正态分布N (μ,1)。求μ的置信度为的置信区间。 0.050.050.025((9)=2.262, (8)=2.306, 1.960 )t t U =已知: 解:由于零件的长度服从正态分布,所以~(0,1) x U N = 0.025{||}0.95P U u <= 所以μ的置信区间为 0.025 0.025 (x u x u -+ 经计算 9 19 1 6i i x x == =∑ μ的置信度为的置信区间为 11 33(6 1.96,6 1.96)-?+? 即, 八(2)、某车间生产滚珠,其直径X ~N (μ, ,从某天的产品里随机抽出9个量得直径如下(单位:毫米 ): 若已知该天产品直径的方差不变,试找出平均直径μ的置信度为的置信区间。 0.050.050.025((9)=2.262, (8)=2.306, 1.960 )t t U =已知: 解:由于滚珠的直径X 服从正态分布,所以~(0,1) x U N = 0.025{||}0.95P U u <= 所以μ的置信区间为: 0.0250.025 (x u x u -+ 经计算 9 19 1 14.911i i x x == =∑ μ的置信度为的置信区间为 (14.911 1.96 1.96-+ 即, 八(3)、工厂生产一种零件,其口径X (单位:毫米)服从正态分布2 (,)N μσ,现从某日生产的零件中随机抽出9个,分别测得其口径如下:

已知零件口径X 的标准差0.15σ=,求μ的置信度为的置信区间。 0.050.050.025((9)=2.262, (8)=2.306, 1.960 )t t U =已知: 解:由于零件的口径服从正态分布, 所以~(0,1)x U N = 0.025{||}0.95P U u <= 所以μ 的置信区间为:0.025 0.025 (x u x u -+ 经计算 9 19 1 14.9i i x x == =∑ μ 的置信度为的置信区间为 0.150.15 33(14.9 1.96,14.9 1.96)-?+? 即 , 八(4)、随机抽取某种炮弹9发做实验,测得炮口速度的样本标准差S =3(m/s),设炮口速度服从正态分布,求这种炮弹的炮口速度的方差2 σ的置信度为的置信区间。 22220.0250.9750.0250.975((8)17.535, (8) 2.18(9)19.02, (9) 2.7)χχχχ====已知:; 因为炮口速度服从正态分布,所以 2 22 (1)~(1)n S W n χσ-= - 220.0250.975{(8)(8)}0.95P W χχ≤≤= 2 σ的置信区间为:()()22220.0250.975(1)(1),11n S n S n n χχ??-- ? ?--?? 2σ的置信度的置信区间为 8989,17.535 2.180???? ??? 即()4.106,33.028 八(5)、设某校女生的身高服从正态分布,今从该校某班中随机抽取9名女生,测得数据经计算如下: 162.67, 4.20x cm s cm ==。求该校女生身高方差2σ的置信度为的置信区间。 22220.0250.9750.0250.975((8)17.535, (8) 2.18(9)19.02, (9) 2.7)χχχχ====已知:; 解:因为学生身高服从正态分布,所以2 22 (1)~(1)n S W n χσ-= - 220.0250.975{(8)(8)}0.95P W χχ≤≤= 2 σ的置信区间为:()()22220.0250.975(1)(1),11n S n S n n χχ??-- ? ?--?? 2 σ的置信度的置信区间为 228 4.28 4.2,17.535 2.180???? ??? 即 ()8.048,64.734

企业财务风险的识别与度量

企业财务风险的识别与度量 摘要:财务风险是不以人的意志为转移而客观存在的。企业财务状况的好坏直接影响企业的生存和发展,进而影响我国的经济发展和社会稳定,对企业财务风险管理进行系统深入的研究,具有极为重要的意义。本文在结合中外学者对财务风险的研究基础上,浅析企业财务风险的识别和度量方法。由于我国关于财务风险管理理论的研究还不够完善,因此这对于研究我国企业财务风险的识别和度量具有非常重要的理论价值和现实意义。 关键词:财务风险;风险识别;风险度量 正文: 企业财务风险存在于企业财务管理工作的各个环节,是现代企业面对市场竞争的必然产物,并贯穿于企业生产经营的整个过程中,因此是不可避免的。企业只有加强对财务风险的识别、预测和控制,才能在激烈的市场竞争中将风险降至最低水平,使企业价值最大化的财务目标得以实现。在此问题上,国内外学者都有很大贡献。 Fitzpatrick(1932)对财务危机预测进行单变量破产预测模型研究,他以19家公司为样本,将样本分为两组,即破产与非破产。结果发现判别能力最高的是净利润/股东权益和股东权益/负债两个比率。 Beaver(1966)在其论文《Financial Ration as Predictions of Failure》中率先提出了单变量分析法。Beaver选择了79对公司组成样本,分别检验了反映公司不同财务特征的6组30个变量在公司破产前1-5年的预测能力,他发现最好的判别变量是营运资本/流动负债和净利润/总资产。 Altman(1968)首次运用多变量分析技术对企业财务危机进行判别分析。他从流动性、获利能力、财务杠杆、偿债能力和活动性5个方面选用了22个变量作为预测备选变量,通过对1946-1965年33家破产制造企业和33家非破产配对企业的研究分析,根据误判率最小的原则,最终确定营运资产/资产总额、留存收益/资产总额、息税前利润/资产总额、股东权益市场价值/总负债账面价值

抽样调查样本量确定

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

如何保证能力素质测评的信度和效度

如何保证能力素质测评的信度和效度 人才测评的主要工作是通过各种方法对被试者加以了解,从而为企业组织的人力资源管理决策提供参考和依据。经过长期的发展和适应不同情况的需要,形成了多种人才测评方法。而人才素质测评作为一项重要的人事技术,已经为越来越多的企业人力资源部门所接受,而如何保证能力素质测评中的信度和效度,也越来越受到关注。下面,就具体案例讲讲如何保证能力素质测评的信度和效度。 一、案例背景 N公司是一家外资工程管理公司,成立于1998年,总部设在上海。随着WTO的开放和工程项目的增多,工程公司在国内如雨后春笋般成长起来,就此拉开了人才竞争的序幕。尤其是上海,工程项目管理人才的争夺十分激烈,N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力,保留现有中高层骨干人才,并让他们“适人适位”,N公司请来了北大纵横管理咨询公司,希望通过专业评估解决这个问题。 二、建立人才能力素质模型并实施测评 (一)中高层能力素质模型及测评方法的确定 鉴于本次测评的对象是N公司的中高层管理人才和精英人物,测评的目的是为了保留人才、适人适岗,因此经过双方共同探讨,项目组在北大纵横经理人能力素质指标体系的基础上,结合N公司的实际情况,选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时,采用广泛用于企业人员素质测评、

方案比较、科学技术成果评比等方面的层次分析法,来确定各测评因素在管理素质和业务素质上的权重。 通过向N公司老总介绍人才测评的方法及工具,大家一致选定评价中心技术进行本次人才测评,并主要运用三类测评工具:心理测验、深度面谈和情景模拟测验。 (二)测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起,围绕测评因素,结合N公司实际情况进行测试题目的设计,并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试,人机对话;深度面谈设计了20个题目,涵盖了测评的各个维度;情景模拟采用案例分析和主题演讲两种测评工具,其中案例分析题库包含12题,主题演讲题库包含15题,被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中,测评小组成员由N公司内部专家、外部专家,以及北大纵横项目组组成。在测评实施前,对测评小组进行培训,使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问,被测评人根据提问回答问题,与测评小组进行双向沟通后,由测评小组根据评分标准对被测评人的表现现场打分,填入评分表;16PF人格要素测试要求被测试人进行40分钟的人机对话,由测评小组保存有效答卷。 由于不同的测评者其衡量的尺度会存在差异,为保证各个被试者成绩排序的正确性,在测评时,向测评者提供“成绩比较表”,供其记载各个被试者的各项测试的评分,便于他们进行比较。

样本量的确定

样本量的确定 北京广播学院新闻传播学院 调查统计研究所 二零零一年五月 沈浩 本讲主要内容 如何计算简单随机抽样的样本量确定 如何实现分层抽样中各层样本单位数的分配样本容量的确定 样本量=费用+精度 (函数) 确定样本容量,需要处理好预定的精度与现有经费,同时也要考虑资源和时间等限 制条件,最终的样本量确定是在上述因素之间的权衡关系。分层抽样分配样本的标准 总的样本容量事先确定 估计值要求达到的精度预先给定 影响调查样本容量的因素 调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小

样本设计和所使用的估计量 无回答率 客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少 除了估计值的精度以外,调查实际操作的限制条件也许是影响样本容量的最大因 素。 11>(给定精度水平下样本容量的确定样本容量的大小与调查估计值所要求的精度紧密相关 数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。标准误差 误差界限 变异系数 抽样方差的几种计量方法 抽样调查中样本容量的确定,也经常会使用一种或多种这样的计量方法来对精度进 行说明。 非抽样误差 非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑

计量经济问答题及答案

1.什么是计量经济学它与经济学、统计学和数学的关系怎样 答:1、计量经济学是一门运用经济理论和统计技术来分析经济数据的科学和艺术,它以经济理论为指导,以客观事实为依据,运用数学、统计学的方法和计算机技术,研究带有随机影响的经济变量之间的数量关系和规律。2、经济理论、数学和统计学知识是在计量经济学这一领域进行研究的必要前提,这三者中的每一个对于真正理解现代经济生活中的数量关系是必要的,但不充分,只有结合在一起才行。 2计量经济学三个要素是什么经济理论、经济数据和统计方法。 3.计量经济学模型的检验包括哪几个方面其具体含义是什么 答:(1)经济意义检验,即根据拟定的符号、大小、关系,对参数估计结果的可靠性进行判断 (2)统计检验,由数理统计理论决定。包括:拟合优度检验、总体显着性检验。 (3)计量经济学检验,由计量经济学理论决定。包括:异方差性检验、序列相关性检验、多重共线性检验。(4)模型预测检验,由模型应用要求决定。包括:稳定性检验:扩大样本重新估计;预测性能检验:对样本外一点进行实际预测。 4.计量经济学方法与一般经济数学方法有什么区别 答:计量经济学揭示经济活动中各因素之间的定量关系,用随机性的数学方程加以描述;一般经济数学方法揭示经济活动中各因素之间的理论关系,用确定性的数学方程加以描述。 5.计量经济学模型研究的经济关系有那两个基本特征 一是随机关系,二是因果关系 6.计量经济学研究的对象和核心内容是什么 计量经济学的研究对象是经济现象,是研究经济现象中的具体数量规律。 计量经济学的核心内容包括两个方面:一是方法论,即计量经济学方法或者理论计量经济学。二是应用,即应用计量经济学。无论是理论计量经济学还是应用计量经济学,都包括理论、方法和数据三种要素。 7.计量经济学中应用的数据类型怎样举例解释其中三种数据类型的结构。 计量经济模型:WAGE=f(EDU,EXP,GEND,μ) 1、时间序列数据是按时间周期收集的数据,如年度或季度的国民生产总值。 2、横截面数据是在同一时间点手机的不同个体的数据。如世界各国某年国民生产总值。 3、混合数据是兼有时间序列和横截面成分的数据,如1985—2010世界各国GDP数据。

试题的难度、区分度、信度和效度

试卷的难度、区分度、信度和效度 一.试卷的难度 (一)什么是难度 难度是指试卷的难易程度,是评价考试的一个非常重要的一个指标。一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。 客观题难度计算公式:P(难度指数)=试卷答对人数/考生人数;主观题难度计算公式:P=试卷平均得分/试卷满分。试卷难度计算公式:P=为平均分,K 为试卷满分值。易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39;P值越大,难度越低,P值越小,难度越高。一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。 (二)难度的计算 (1)客观性试卷难度P(这时也称通过率)计算公式: P=k/N(k为答对该题的人数,N为参加测验的总人数) (2)主观性试卷难度P计算公式: P=X/M(X为试卷平均得分;M为试卷满分) (3)适用于主、客观试卷的计算公式: P=(P H +P L )/2(P H 、P L 分别为试卷针对高分组和低分组考生的难度值) 步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④计算。 (三)试卷难度的一般要求 就高考来说,难度以适中为宜,单个试卷的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试卷定为容易题;大于0.4和小于0.7的定为中档题;小于和等于0.4的试卷定为难题。命题时难度一般要按一定比例分配,如3:6:1或3:5:2。 二.试卷的区分度 (一)什么是区分度 区分度是指考试卷目对考生心理特征的区分能力。区分度高的试卷能将不同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。区分度高的

角的度量解决问题

附:电子教案表格表样 上里塬中心小学电子教案 上课时间9月27日备课人辛雪雪学科四年级数 学(上册) 课题角的度量·解决问题 教学目标 (一)知识与技能 进一步理解线段、射线、直线和角的相关概念,区分5种不同的角,用量角器和三角尺正确地量角、画角;灵活地运用相关知识解决问题。 (二)过程与方法 通过经历观察、操作、推理、表达等数学活动,培养学生发现问题、解决问题的能力。 (三)情感态度和价值观 引发数学思考,渗透数学思想,发展空间观念,提高应用意识。 教学重点 巩固有关线和角的基本概念与操作技能 教学难点初步感悟图形的性质。 教学准备 量角器、三角板、多媒体课件 教学过程备注

(一)知识梳理 1.谈话:回忆一下,我们都学习了哪些有关线和角的知识? 预设:线段、射线和直线;角的分类;量角;画角 2.揭示课题 谈话:同学们学得可真不少,那么学习了这些新知识,有什么用呢?能不能帮助我们解决一些数学上和生活中的问题呢?这节课我们就一起来“解决问题”。(板书:解决问题) 【设计意图】为学生创设自主梳理知识要点的机会,有助于学生养成及时总结的习惯,使散落的知识点汇集成知识网络,深化对新知识的理解。 (二)实践应用 1.量一量 (1)量一量,队旗上的角。 谈话:同学们都知道,我们所佩戴的红领巾是队旗的一角,现在就让我们认识一下队旗,量一量队旗上的角。 ①出示图片 ②小组合作 探究新知 课堂作业练习 思维训练 回顾整理、反思提升

互相指一指这5个角,指出它们的顶点和边;独立量角后交流。 ③展示量角过程,交流量角方法及结果。 提问:量角时要注意什么。 (2)量一量,你有什么发现? ①出示图片: ②观察图中的角,有什么发现? 预设:∠1和∠2可以组成一个平角;每相邻两个角合起来是一个平角。 ③思考:想一想,至少量出几个角,就能知道每个角的度数。 预设:一个钝角、一个锐角 ④量一量,你有什么发现? 预设:对顶角相等;相邻角的和为180度等。 (3)先估计,再量出图中各角的度数。 ①谈话:估一估,图中的角大约多少度?是什么角?

数学教学质量评估量表信度和效度分析

数学教学质量评估量表信度和效度分析 摘要:数学教学质量评估是教学管理的重要手段。根据高职院校特征,设计了数学教学评估量表,通过测试发现该量表具有较好的信度和效度,适合于对高职院校数学教学课堂质量评估。 关键词:教学评估;数学;信度;效度 数学教学质量评估是指依照一定的标准对数学教师教学质量进 行观察,并做出价值判断的过程。教学质量评估的结果将是被评价者提高自己各项技能和相关部门决策的重要依据。目前各个大专院校都将教学质量评估作为教学管理的一项重要内容。 一、研究方法 根据国内外研究者对教学质量评估的研究资料,提炼出符合高职院校的数学教学质量评估量表,并在本校各个专业367人进行测试,其中男生191人,女生176人。数学质量评估量表为选择题,当场测试并收卷,回收的数据用spss软件进行统计和处理。 二、因素分析 因素分析是处理多变量数据的一种统计方法,它可以揭示多变量之间的关系,因素分析的目的是通过寻找或者确定几个较少的假设“因子”来反映多个观察变量中蕴含的大部分信息,从而浓缩或化简观察数据。浓缩后的因子代表了数据间的基本结构,通过得到的因子估计值使研究者更方便地掌握数据的本质特质以及因子和观 察变量之间的关系。统计可以看出特征值大于1的因子共有5个,

累计贡献率为62.783%。因此可以抽取5个因素。5个因素中,变量的最高负荷值为0.835,最低的最高负荷值为0.307。第一个因素包括4个变量:上课熟练、准备充分、按时上下课、有责任心,称为教学态度;第二个因素包括4个变量:讲述准确、重难点突出、进度适宜、针对性强,称为教学内容;第三个因素包括3个变量:善于启发、方法恰当、深入浅出,称为教学方法;第四个因素包括3个变量:板书整洁、逻辑思路清晰、语言精炼,称为教学能力;第五个因素包括2个变量:效果明显、学生兴趣浓厚,称为教学效果。 三、信度检验 使用量表来度量人们的意见和看法时,为了判断得到的结果是否准确、可靠、是否有适用性,这需要对评价量表进行信度和效度检验。信度(reliability)即可靠性,是指采用同一种方法对同一对象进行调查时,问卷调查结果的稳定性和一致性,也就是该量表能否稳定地测量所测事物或者变量。信度指标多以相关系数表示,用信度系数来表示信度的大小。信度系数越大,表明测量的可信程度越大。究竟信度系数要多少才算有高的信度。一般认为其值为0.60~0.65为最好;0.65~0.70是最小可接受值;0.70~0.80表示相当好;0.80~0.90表示非常好。由此,一份信度系数好的量表或问卷,最好在0.80以上。若分量表的内部一致性系数在0.60以下或者总量表的信度系数在0.80以下,应考虑重新修订量表或增

样本量的确定方法.

如对你有帮助,请购买下载打赏,谢谢!样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

评估测评的信度与效度

评估测评的信度与效度 案例 一、案例背景 N公司是一家外资工程管理公司,成立于1998年,总部设在上海。随着WTO 的开放和工程项目的增多,工程公司在国内如雨后春笋般成长起来,就此拉开了人才竞争的序幕。尤其是上海,工程项目管理人才的争夺十分激烈,N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力,保留现有中高层骨干人才,并让他们“适人适位”, N公司请来了北大纵横管理咨询公司,希望通过专业评估解决这个问题。 二、建立人才能力素质模型并实施测评 (一)中高层能力素质模型及测评方法的确定 鉴于本次测评的对象是N公司的中高层管理人才和精英人物,测评的目的是为了保留人才、适人适岗,因此经过双方共同探讨,项目组在北大纵横经理人能力素质指标体系的基础上,结合N公司的实际情况,选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时,采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法,来确定各测评因素在管理素质和业务素质上的权重。 通过向N公司老总介绍人才测评的方法及工具,大家一致选定评价中心技术进行本次人才测评,并主要运用三类测评工具:心理测验、深度面谈和情景模拟测验。 (二)测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起,围绕测评因素,结合N公司实际情况进行测试题目的设计,并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试,人机对话;深度面谈设计了20个题目,涵盖了测评的各个维度;情景模拟采用案例分析和主题演讲两种测评工具,其中案例分析题库包含12题,主题演讲题库包含15题,被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中,测评小组成员由N公司内部专家、外部专家,以及北大纵横项目组组成。在测评实施前,对测评小组进行培训,使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问,被测评人根据提问回答问题,与测评小组进行双向沟通后,由测

度量空间的可分性与完备性

度量空间的可分性与完备性 在实数空间R 中,有理数处处稠密,且全体有理数是可列的,我们称此性质为实数空间R 的可分性.同时,实数空间R 还具有完备性,即R 中任何基本列必收敛于某实数.现在我们将这些概念推广到一般度量空间. 1.3.1 度量空间的可分性 定义1.3.1 设X 是度量空间,,A B X ?,如果B 中任意点x B ∈的任何邻域(,)O x δ内都含有A 的点,则称A 在B 中稠密.若A B ?,通常称A 是B 的稠密子集. 注1:A 在B 中稠密并不意味着有A B ?.例如有理数在无理数中稠密;有理数也在实数中稠密.无理数在有理数中是稠密的,无理数在实数中也是稠密的,说明任何两个不相等的实数之间必有无限多个有理数也有无限多个无理数. 定理1.3.1 设(,)X d 是度量空间,下列命题等价: (1) A 在B 中稠密; (2) x B ?∈,{}n x A ??,使得lim (,)0n n d x x →∞ =; (3) B A ?(其中A A A '=,A 为A 的闭包,A '为A 的导集(聚点集)); (4) 任取0δ>,有(,)x A B O x δ∈?.即由以A 中每一点为中心δ为半径的开球组成的集合 覆盖B . 证明 按照稠密、闭包及聚点等相关定义易得. 定理1.3.2 稠密集的传递性 设X 是度量空间,,,A B C X ?,若A 在B 中稠密,B 在C 中稠密,则A 在C 中稠密. 证明 由定理知B A ?,C B ?,而B 是包含B 的最小闭集,所以B B A ??,于是有C A ?,即A 在C 中稠密.□ 注2:利用维尔特拉斯定理可证得{定理(Weierstrass 多项式逼近定理) 闭区间[,]a b 上的每一个连续函数都可以表示成某一多项式序列的一致收敛极限.} (1)多项式函数集[,]P a b 在连续函数空间[,]C a b 中稠密. 参考其它资料可知:

信用风险的度量方法

一、信用风险度量方法与模型 1.传统的信用风险评价方法 (1)要素分析法。 要素分析法是通过定性分析有关指标来评价客户信用风险时所采用的专家分析法。 常用的要素分析法是5C要素分析法,它主要集中在借款人的道德品质(Character)、还款能力(Capacity)、资本实力(Capital)、担保(Collateral)和经营环境条件(Condition)五个方面进行全面的定性分析,以判别借款人的还款意愿和还款能力。 根据不同的角度,有的将分析要素归纳为“5W”因素,即借款人(Who)、借款用途(Why)、还款期限(When)、担保物(What)及如何还款(How)。 还有的归纳为“5P”因素,即个人因素(Personal)、借款目的(Purpose)、偿还(Payment)、保障(Protection)和前景(Perspective)。 无论是“5C”、“5W”还是“5P”,其共同之处都是先选取一定特征目标要素,然后对每一要素评分,使信用数量化,从而确定其信用等级,以其作为其销售、贷款等行为的标准和随后跟踪监测期间的政策调整依据。 (2)特征分析法。 特征分析法是目前在国外企业信用管理工作中应用较为普遍的一种信用分析工具。它是从客户的种种特征中选择出对信用分析意义最大、直接与客户信用状况相联系的若干因素,将其编为几组,分别对这些因素评分并综合分析,最后得到一个较为全面的分析结果。 一般所分析的特征包括客户自身特征、客户优先性特征、信用及财务特征等。特征分析法的主要用途是对客户的资信状况做出综合性的评价,它涵盖了反映客户经营实力和发展潜力的所有重要指标,这种信用风险分析方法主要由信用调查机构和企业内部信用管理部门使用。 (3)财务比率分析法。

样本量的确定方法

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

什么是测试的信度和效度,如何保证测试的信度和效度

什么是测试的信度和效度,如何保证测试的信度和效度 棋盘中小张倩倩 在教育研究中,信度与效度是很常见的两个概念。但每次看到或听到这两个名词,我的脑袋老反应不过来,看来基础就是不扎实。我在这里就谈谈我浅显的认识。 一、信度 所谓的信度,是指使用相同指标或测量工具重复测量相同事物时,得到相同结果的可能性。如果说某个指标或测量工具的信度高,那它提供的测量结果就不会因为指标、测量工具或测量设计本身的特性而发生变化;反之亦然。根据测量过程中不同的误差来源,可分为再测信度、复本信度和折半信度。 再测信度,是用同一测量工具在不同的时间对同一群受试者前后测量两次,然后计算两次测量分数的相关系数,相关系数越大说明两次测量的一致性越高。相隔的时间不应该太长。 复本信度,是用两个完全等值的(平行的)复本对同一群受试者进行测试,计算两种复本测量分数的相关系数,相关系数越大说明两个复本构成带来的变异越小。如考试中使用的A、B卷 折半信度,只用一个测量工具对同一群受试者实施一次测量,但将奇数题和偶数题分开计分,再计算奇数试题和偶数试题分数之间的相关系数。 二、效度 所谓的效度,是指测量工具能够测出其所要测量的特征的正确性程

度。效度越高,即表示测量结果越能显示其所要测量的特征。如果说根据某项特征能够区分人、物或事件,那么说某个测量该特征的测量工具是有效的,就是指它的测量结果能把具有不同特征的人、物或事件进行有效的区分。常用的有变面效度、内容效度和效标效度。 表面效度是指测量效果和人们头脑中的印象或学术界形成的共识之间的吻和程度,吻合程度高,表面效度就高。 内容效度是指测量在多大程度上涵盖了被测量概念的全部内涵,测量工具代表概念定义的内容越多,内容效度就越高。 效标效度是指测量结果与一些标准之间的一致性程度,这些标准能够精确表示被测概念。 三、信度与效度的关系 信度是效度的必要条件,但不是充分条件。一个测量工具要有效度必须有信度,没有信度就没有效度;但是有了信度不一定有效度。 信度低,效度不可能高。因为如果测量的数据不准确,也并不能有效地说明所研究的对象。 信度高,效度未必高。例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平。 效度低,信度很可能高。例如,即是一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。 效度高,信度也必然高。

相关文档
最新文档