第5章教育测量与评价的质量特性(1)

本章主要涉及教育测量与评价的信度、效度，教育测量与评价中题目的难度、教育测量与评价中题目的区分度。

学习本章内容时，要理解概念和方法，掌握不同概念和不同方法之间的联系与区别，通过自己归纳与分类整理，更好地掌握本章内容。学完本章后，你应当能够做到：掌握信度、效度、难度、及区分度的定义；在不同情况下能够采用恰当的方法计算测验的信度；领会标准参照测验的信度与一般测验信度的区别；依据不同情况选用恰当的方法对测验的效度进行评价；计算题目的难度；分析题目的区分度；体会测验的信度与测量分数误差之间的关系。

本章的重点内容是：把握同质性信度的各种分析方法；掌握标准参照测验的信度的分析方法；掌握测验的内容效度的分析与研究方法；掌握测验题目难度的各种分析方法；了解估计题目区分度的两类方法，着重掌握“两端组法”。

教育测量与评价的信度

简单地说，教育测量与评价的信度，就是教育测量与评价结果的可信程度。如果用同一测量工具反复测量同一对象，则多次测量结果间的一致性程度也叫信度。测验信度是对测验工具及其操作的整体质量的一种量度，是测验性能的重要质量指标。本节介绍信度的估计方法。

一、重测信度和复本信度

（一）重测信度

重测信度指的是用同一个量表（测验或评价表）对同一组被试测试两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。

重测信度有个基本假设，即某测验所要测量的潜在特质，短期内不会随着时间推移而变化。因此，重测信度的用途也在于估计测验结果（用测验分数表示）经过一段时间后是否依然保持稳定、一致的特性，又称为稳定性系数。

重测信度适用于异质性测验。这里的异质性测验是指一个测验包括几个不同的部分，这几个部分分别测量着几个不同的心理特质，它们之间可能并不存在相关，或者相关性较小。对于这种异质性测验不适合计算它的内部一致性信度。这时，采用重测信度是比较可靠的。此外，重测信度可用于速度测验而不用于难度测验。速度测验的测题数量多，而且有一定的时间限制，被试难于记住初次施测的内容，所以第二次施测较少受记忆的影响，而难度测验则相反。重测信度还适用于运动技能的测验，如跑、跳、掷等，其测验成绩较少受重复测量的影响。

（二）复本信度

复本测验也称为平行测验。即在试题题数、格式、难度、指导语说明、施测要求等方面都相当，并且目的是测量相同潜在特质或属性，但试题又是不相同的测验。

复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的相关系数。

复本测验的实施通过两种方式：一种是在相同时间连续施测，另一种是间隔一段时间后施测。前者主要可以反映出测验内容造成误差的多少，即可以反映出两个测验是否是真正的平行测验，这种复本信度也可称为等值性系数。而后者所得到的复本信度，不仅反映出测验内容的抽样误差，而且也反映了被试本身状况改变。这种同时兼顾试题抽样与时间影响的信度，称为等值稳定性系数。同其他的信度系数相比，等值稳定性系数最小，可以说这种复本信度是对信度最严格的检验。

使用复本信度需要一个条件，就是要构造出两份或两份以上的真正的平行测验。而这个条件很难达到。因此，复本信度也可能低估了测验真正的信度。

二、同质性信度

同质性信度也可称为内部一致性信度，它是指测验内部所有题目间的一致性程度。这里，题目间的一致性包括两层含义：第一所有题目测的须是同一种心理特质；第二所有题目得分之间要具有较高的正相关。即同质性信度就是一个测验所测内容或特质的相同程度。

同质性信度有这样一个假设：当一个测验具有较高的同质性信度时，.明测验主要测的是某一单个心理特质，因为众多的题目测试了同一心理特质，因此实测结果就是该特质水平的反映。例如，用一道选择题测量被试的数学能力，机会性太大，并不能反映被试的真正水平。但是用10道题及至更多的题来测被试数学能力，如果这些题就是测量同一种能力的话，那么随着题量增多，必然会更加客观地反映被试的真实水平。如果一个测验同质性信度不高，则说明测验结果可能是几种心理特质的综合反映，这种情况下，测验结果就不好解释。还有一种办法是把一个异质的测验分解成多个具有同质性的分测验，再根据被试在分测验上的得分分别作出解释。但这样，实际上每个分测验的题量都减少了，因此异质测验并不适合用同质性信度。此外，如果速率是测验的重要因素，也不适用同质性信度系数。估计同质性信度的方法主要有：

（一）分半信度

所谓分半信度就是指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。因为它能够反映测验分两半后题目间的一致性，所以属于同质性信度。然而，也可以将分半信度和等值性系数一样解释，也就是说把对等的两半测验看成是在最短时间距内施测的两个平行测验。

分半信度的计算并不难，而较为困难的是如何将测验分成均等的两半。分半的方法很多，如按题号的奇偶分半、按题目的难度分半、按题目的内容分半等等。一般情况下，同一个测验通常会有多个分半信度值。但是不论如何分半，一般在分半后都应考察分半的具体情况，看是否需要作适当调整，其最终的目标是否分成对等的两半。如果一个测验不能分成对等的两半则不宜使用分半信度。在现实的应用中，由于题目大多是依据难度大小排列，采用奇偶分半可使两半测验的题目在难度上基本相等，因此常被采纳。

分半信度的计算方法和等值复本信度的方法类似，只不过分半信度计算的是两个“半测验”上得分的相关系数，只是半个测验的信度，还必须用斯皮尔曼——布朗公式加以校正：

rxx=2rhh/（1+rnn）（6-1）

式中，rxx为整个测验的信度系数；rhh为两个“半测验”上得分的相关系数。

例20：一个测验向15名被试施测，被试在奇偶分半测验上的得分，计算该测验的分半信度系数。

解：计算两个“半测验”得分的积差相关系数为0.86。代入公式（6-1）得：

rxx=2rhh/（1+rhh）=（2×0.86）/（1+0.86）=0.96

所以，该测验的分半信度系数为0.92。

（二）库德——理查逊信度

库德——理查逊信度，这种方法适用于测验题目全部为二分记分题的测验的内部一致性信度分析。库德——理查逊公式有多个，其中常用的有KR20和KR21公式。

（1）KR20公式为：

KR20=KK-1（1-∑nn=1piqiS2x（6-2）

式中，KR20为测验的信度；K为题目数；pi和qi分别表示答对和答错第i题的被试人数比例；S2x为测验总分的方差。

例21：10名被试在一个测验上的得分情况如表6-2所示（答对得1分，答错得0分），试估计被试反应的一致性程度。

解K=6∑ni=1pq=1.35S2=2.01代入公式（6-2）得

KR20=66-1（1-1.352.01）=0.39

（2）KR21公式为：

KR21=KK-1［1-X（K-X）KS2x］（6-3）

式中，KR21为测验的信度；X是全体被试测验总分的平均数；其他符号的含义与公式（6-2）中相同。

仍采用表6-2的数据资料，求得X=3.3，代入公式（6-3），得

KR21=66-1×［1-3.3×（6-3.3）6×2.01］=0.31

当测验中所有试题难度都一样，或平均难度接近0.50时，根据KR20公式和KR21公式所估计出来的信度值将相等。但是，当测验中所有试题的难度值极不相同时，由这两个公式所估计出来的信度值较大将差距，通常用KR21公式估计出的信度值会比KR20公式估计出的信度值小。

（三）克龙巴赫（cronbach）系数

当测验题型较多、并非都是二分记分题时，估计测验信度可采用克龙巴赫系数。其计算公式为：

α=KK-1（1-∑S2iS2x）（6-4）

式中，S2i表示所有被试在第i题上得分的方差，S2x表示所有被试各自总分的方差，为题目数。

例22：用一个包含6个论文式试题的测验，对5个被试施测，其结果如表6-3所示，试求该测验的信度。

解：①求所有被试在第i题上得分的方差S2i：列在表中最右列

②求所有被试在各题上得分方差之和∑S2i：

∑S2i=3.76+0.4+1.36+1.84+1.84+2.00=11.20

③求所有被试各自总分的方差S2x：

S2x=19.44

④代入公式（6-4）计算信度系数：

α=66-1×（1-11.2019.44）=0.51

三、标准参照测验的信度分析

在标准参照测验中，决定学生的学习是否达到老师预先设定的掌握标准，是一件很重要的事情。在这个标准下，多数学生的学习将可以达到某种满意的掌握水平，因此，学生在测验上得分的变异数将会变得很小。在这种理念下，上述较适用于常模参照测验的信度的一些估计方法便不适合用来估计标准参照测验的信度。

既然，在标准参照测验中，学生的测验分数是用来作为决定（或判断）其是否达到掌握标准的一项重要依据，因此，“决定”是否正确远比分数“估计”是否精确更重要。在这一思想指导下，人们提出了一些分析标准参照测验信度的方法，这里介绍百分比一致性指标的方法。

百分比一致性（percentagreement，简称PA）指标是指同一测验或两平行测验先后两次施测，其对被试的分类结果一致的比例。

四、测量标准误与测验信度的关系

测量标准误是指测验中所得测值偏离真分数的程度，记为SE。显然，它与测验信度系数之间存在着必然联系，这种关系可定量地表示如下：

SE=Sx1-rxx（6-5）

式中，SE为测量的标准误，Sx为观察分数的标准差，rxx是测量的信度系数。

测量标准误是反映测量结果精确性和可靠性的又一指标，同时也是人们正确解释测验分数的科学依据。例如，某次测验信度系数为0.92，一批被试的测验分数的标准差为9.48，那么该次测验的测量标准误SE=2.68。应用测量标准误SE可合理地解释被试所得分数的误差范围。假设某被试在上述测验中得分为70分，根据统计学中区间估计的原理，可以推断出该被试的真正分数有68.26%的可能性落在70±SE之间，即位于［67.32，72.68］之间；同理，有95%的可能性落在70±1.96SE之间，即在［64.75，75.25］之间。根据测验的信度系数求出测量标准误，从而正确解释各被试的测验分数，这是测验信度系数的一个重要应用。

教育测量与评价的效度

效度，顾名思义，就是一次测量的有效程度。严格地说，效度是指一个测验或量表实际能测出其所要测量特性的程度。显然，效度是测量质量的一个极其重要的方面，测量工具如果无效或效度太低，就失去了存在价值。评价一个测量是否有效要多角度多方面地收集证据，然后利用这些跟测验有关的客观资料，用逻辑思维或统计分析的方法，来确定该测验的实际有效性。这种收集大量资料和证据来检验测量效度的工作过程，叫做效度验证。验证测验效度可以从不同角度采用不同方法来进行，比如系统考察测验项目的内容、拿被试测验分数与其他独立测量结果作比较，以及分析测验所测的心理特性的结构与性质等等。根据验证效度的角度与方法的差异，可以把效度验证工作大体分为三类，验证工作的结果就分别对应着三种效度：内容效度、结构效度和效标关联效度。

一、内容效度

（一）含义

内容效度就是测验题目样本对于应测内容与行为领域的代表性程度。如果是教学情境下的成绩测验，那么其内容效度就是看测验题目样本能体现教学目标与教材要求的程度。例如，教师给学生做一份语文成绩测验，如果该测验的题目涵盖了语文教学所要达到的各项教学目标及教材的重要内容，那么我们便说该测验具有较高的内容效度。

第5章 教育测量与评价的质量特性(1)

第5章教育测量与评价的质量特性(1)