第6章教育测量与评价的质量特性(2)

书签收藏评论目录封面

显然，要考察测验题目样本的代表性，首先就要求对应测内容与行为领域有明确的界定，有比较清楚的组织结构。因此，内容效度主要适用于教育测量（尤其是学业成绩测验）的情境中。在教育测量中，尤其是标准参照测验，测验分数是依据测验内容及外在的客观标准来加以解释，所以内容效度最能反映出该测验是否可以测量出所要测量的特质内容。另外，学业成就测验往往具有明确的教材内容和学习目标，试题内容是从中挑选出来的，便于进行逻辑分析与判断。对于某些特质的心理测验，内容效度并不适合，因为一些心理特质，如“智力”、“创造性”、“人格”等，都存在着外延范围不明、内部结构复杂、人们对其看法不统一的现象，因而，不易进行内容效度分析。

内容效度也适合于某些用于选拔和分类的职业测验。这种测验所测的内容就是实际工作所需的知识和技能。编制这种测验如果事先对实际工作做了较细的分析，题目取样一般来说可以较为满意。

（二）分析方法

内容效度的分析方法常用逻辑分析法，即依靠有关专家对测验题目与应测内容范围的吻合程度作出判断。例如考试的内容效度分析，就是依靠专家来分析一份试卷的所有题目，把所有题目按考试内容分布和考查目标分布进行双向分类，形成实际的“题目双向分类表”；基于这个“题目双向分类表”的分析，然后由专家对这次考试（测量）的内容效度的满意程度作出等级判断或评语描述。如果在测验编制之前已有制定“命题双向细目表”，那么，对测验的内容效度进行分析时，就可以把基于实际测验题目分析得到的“题目双向分类表”，与事先制定的“命题双向细目表”进行对照分析，了解实际命题在多大程度上偏离了原命题计划。

二、结构效度

所谓结构，是指心理学或社会学上的一种理论构想或特质。它本身观察不到、并且也无法直接测量到，但学术理论假设它是存在的，以便能够来解释和预测个人或团体的行为表现。例如，智力就是心理学中的一种结构效度，指的就是测验能够测量到理论上（通常是心理学或社会学）所定义的某一心理结构或特质的程度。

总的来说，结构效度的验证一般包括四个步骤：第一，提出有关理论结构的说明，并据此设计测量用的试题。在实际应用中，测量者也可能是在前人提出的理论结构假设基础上，来进行测验编制的。第二，提出可以验证该理论结构是存在的假设说明。第三，采用各种方法收集实际的资料，以验证第二步提出的假设的正确性。第四，收集其他类型的辅助证据，淘汰与理论结构相反的试题，或是修正理论，并重复第二和第三步，直到上述的假设得到验证，即测验的结构效度获得支持为止。否则，即表示该测验效度有问题或是该理论结构有问题，或是两者都存在问题。此时，必须重复上述步骤，直到理论结构被验证或决定放弃验证工作为止。

三、效标关联效度及其估计方法

效标关联效度的验证方法是指一个测验对于处于特定情境中的个体行为进行预测时的有效性。而要判断这种预测的有效性，就必须找一个测验外的、客观的标准，比如用高考成绩预测大学生的学习成绩、用能力倾向测验预测个体工作上的成效等，那么学习成绩、工作成败等被预测的行为同时也就是检验测验效度的外在的、客观的标准，即效度的标准，简称效标。因此这种方法考察的测验的效度被称为效标关联效度，由于它是以实践的效果来检验测验是否有效，因此也称为实证效度。

根据效标资料获得的时间不同及测验使用的目的不同，效标关联效度可以分为同时效度和预测效度两种：

（一）测验分数与效标资料的取得约在同一时间内连续完成，计算这两种资料的相关系数即代表测验的同时效度。这种效度的目的主要用于诊断现状，在于用更简单、更省时、更廉价和更有效的测验分数来取代不易搜集的效标资料。比如，韦氏智力测验其有效性是已经得到验证的，但其操作较为复杂、费时。如果我们自编一个能团体施测的纸笔智力测验，有着较高的效度，那么就可用它替代韦氏智力量表使用。为此，我们可以将韦氏智力测验和自编智力测验同时向一批被试施测，然后对获得的两批数据资料进行相关分析，如果相关一致性高，就说明新编测验同时效度高，可以用于实际测验。

（二）在测验分数取得一段时间后，才获得效标资料，计算这两种资料间的相关系数即代表测验的预测效度。预测效度的作用在于预测某个个体将来的行为。比如，高考是一种用来为高等学校选择合格新生的学业成绩测验，其有效性在录取完新生时还无法验证判明，等新生入学一学期或一学年后，再拿新生的高考成绩与大学学业成绩作比较，看看其相关一致性如何。相关高，说明高考的预测效度好；相关低，说明高考的预测效度差。

无论是同时效度还是预测效度，其目的都是想，用实证的方法测验一个有代表性的样本证明测验有效。于是今后就可以用简便的测验去预测类似于样本的其他团体或个体的行为。因此，有人把这两种效度都称作预测效度，并把测验称作预测源。

从效度估计的方法上看，效标关联效度可以用相关法，就是计算测验分数与效标测量的相关系数，具体方法有：积差相关、等级相关、点二列相关等。在使用过程中，该选择何种计算方法，应根据测验分数与效标测量数据资料的形式而定。

教育测量与评价中题目（项目）的难度

教育测量与评价中题目或项目的难度，就是被试完成题目或项目任务时所遇到的困难程度。定量刻画被试作答一个题目所遇到的困难程度的量数，就叫题目的难度系数，也常称为难度值，用符号P表示。

一、难度系数计算方法

难度系数的主要计算方法有以下几种：

（一）以全体被试得分率为难度系数

如果一个题目的难度大，则被试得高分的可能性小；反之，如果题目的难度小，则被试得高分的可能性就大。因此，用得分率可以作为难度系数的指标。其计算公式为：

P=XXmαx（6-6）

式中，P代表题目难度，X为被试在某题目上的平均得分，Xmxx为该题目的满分。

（二）以全体被试通过率为难度系数

在上例中，第一题实际上是个1、0二值记分题。对于二值评分题，只有答对与答错之分。因此，其难度系数在本质上是正确作答人数的比例，也叫通过率。直接建立在通过率基础上的难度系数，其取值范围在0.00（即无人做对）和1.00（即全部做对）之间，其计算公式是：

P=K/N（6-7）

上式中K为答对人数，N为全体被试人数。

（三）以两端组被试得分率的均值为难度系数

该方法是分别计算高分组被试和低分组被试的得分率，然后求取二者的平均值作为难度系数，公式为：

P=PH+PL2（6-8）

式中，P代表难度系数；PH、PL分别表示高分组和低分组被试的得分率，即该两组被试在同一个题目上的难度系数。

以两端组被试的得分率作为难度系数的具体计算步骤为：

1.按被试的总分，将全体被试者从高到低进行排序。

2.从高分往下找，找出高分组；由低分往高找，找出低分组。两组人数分别占总人数的27%。

3.分别计算高分组、低分组的被试在该题目上的平均得分。

4.代入公式（6-7）分别计算高分组和低分组被试在同一个题目上的难度系数。

5.把PH和PL代入公式（6-8），计算这个题目的难度系数。

二、难度系数变换

用上述方法计算出来的难度系数，不论是得分率还是失分率，都属于顺序变量，不具有相等的单位。为了解决这个问题，人们常假设每个试题所要测量的潜在特质或能力是呈正态分布的，然后就可以根据正态分布曲线，将试题的难度系数P作为正态曲线下的概率面积，转换成具有相等单位的等距量表，即Z分数（标准分数）量表。由于标准分数量表具有相等单位，属于等距量表。因此，用标准分数作为题目难度的指标，可为进一步作难度分析带来方便。但是，Z分数有小数点和负值，故需作线性变换。其中较为常用的一种变换是美国教育测验服务中心（EducationalTestingService，简称为ETS）采用的难度指标，其计算公式如下：

△=13+4·Z（6-9）

式中，“△”表示题目难度系数，Z表示由P值转换得来的标准分数，可通过查正态分布表（见附表1）后计算确定。由于标准分数Z通常只取介于＋3之间的数值，因此，常用的值介于1到25之间，平均难度为13，标准差为4。“△”值越大，表示试题越难；“△”越小，表示试题越容易。这种表达比较符合人们的思维习惯。不过，在我国教育领域与考试界，通常还是用得分率来刻画题目的难度。

教育测量与评价中题目（项目）的区分度

一、题目区分度的意义

题目区分度就是题目区别被试水平的能力的量度，常记为D。凡是测验多少都带有将被试的水平加以区分的意图，那么构成测验的每一个题目就应该为这一目标作贡献，区分度就是刻画试题的这种功能的质量指标。在所测特质上，被试的水平总是有高低之分的。倘若高水平被试，在测验题目上能得高分，而低水平被试只能得低分，那么测验题目区分被试水平的能力就强；若高水平被试和低水平被试在测验题目上所得分数没有差异，题目不能提供关于被试水平差异的信息，则它的区分能力就很弱。如高水平被试在测验题目上反而得低分，低水平被试在测验题目上所得分数却不低，这种题目的性能就跟测验理念相背离，在测验中只能起干扰破坏作用。可见，题目区分度是测验性能的一个重要指标，题目对于测验目的来说有效性程度问题。

在区分度的分析过程中，首先必须找一个标准，以确定被试实际水平的高低。只有被试水平高低清楚了，才能判定测验题目对被试水平的区分是否正确。因此，理想的办法就是先找一个客观的标准（一个不依赖于测验成绩的外部的客观标准），再将被试者成绩按优劣顺序排好，然后看被试在测验试题上的得分，其顺序是否跟前者相符。但是，这种测验的外部标准是很难找到的。例如，我们要在统一的高校招生考试之外事先找到一个能把考生水平排好顺序的客观标准，以便据此来分析高考试题区分度的优劣，实际上是不可能的。如果找到了，高考本身也就可以由它来替代了。因此，在对测验试题作区分度的分析时，一般都是使用内部标准，即把考生在整个测验上所得的总分，当作考生的实际水平的代表。当然，这在逻辑上是缺乏充分根据的。因为，总分是否正确可靠，在分析工作尚未进行之前，是无法肯定的。然而，一般来说，测验都是经过一番设计的，全卷总分比起个别试题的得分来说，总是有可能更接近于考生的实际水平的。另外，以总分作标准，有利于增强测验试题间的同质性，从而有利于提高整个测验的信度。同时，也说明每个试题应为测验目标作贡献，如果不一致，恰好就说明了该试题所测特质与测验目标不一致。

区分度的分析方法，可以归纳成两类：一类为外在效标法，即分析被试在测验题目上的得分与在外在的客观标准上的表现之间的关系。另一类为内部一致性法，即分析被试在测题上的得分与在整个测验总分之间的一致性程度。在实际操作中，主要使用的是后者，从这个意义上说，区分度的实质，就是题分与总分的相关程度。

区分度的值域范围在-1.00～+1.00之间。通常D为正值，称作积极区分；D为负值为消极区分；D为0称作无区分作用。具有积极区分作用的项目，其D值越大，区分的效果越好。

二、区分度的计算

区分度的计算方法除了计算“题目得分——测验总分”相关系数外，常采用“高低分组法”计算区分度指数D。被试在测验分数序列中两端高分低分组被认为是两个极端效标组。这两个极端效标组间在特定题目上的反应差别程度可以刻画题目的区分能力。因此，类似于前面谈及应用两端分组的办法来估计题目的难度系数一样，可用高分组在特定题目上的得分率和低分组在相同题目上的得分率之差作为题目区分度的指标（高分组、低分组人数比例各占总人数的27%），被称为鉴别度指数，记为D。计算公式为：

D=PH-PL（6-10）

式中，D代表项目鉴别度指数；PH、PL分别表示高分组和低分组在该题目上的得分率。为计算方便，还可采用公式：

D=XH-XLF（6-11）

式中，D代表题目鉴别度指数；XH表示高分组在特定题目上的平均得分；XL表示低分组在该题目上的平均得分；F表示该题目的满分值。

D值是鉴别题目测量有效性的指标，D值越高，题目越是有效。而且，它适用于各种题分情况，不象相关法那样每一种方法都有各自的适用条件，而各种方法之间有不能直接比较（前面的例子已经显示出，同样的数据不同方法计算的结果不同），因此在实际应用当中，人们常常采用高低分组法来计算题目的区分度。

第6章 教育测量与评价的质量特性(2)

第6章教育测量与评价的质量特性(2)