第53章护理教育评价(4)

论述题实例：王先生，男，49岁，因车祸外伤致截瘫，卧床已3个月，患者述：“治愈无望，干脆回家听天由命算了”。检查：一般状况差，生命体征平稳，口腔黏膜破溃，创面上附着白色膜状物，拭去附着物可见创面轻微出血、尾骶部皮肤红、肿、数个小水泡。

问题：根据需要理论、护理程序理论书写护理诊断3个；拟订相应的护理措施。

各种题型有各自的优点和局限性，在编制试卷中需要综合应用，使其互相补充、相得益彰。在实际考核中，常常是先根据测量目标、测量内容进行命题设计，编制双向细目表，使考查点分布合理，各层次能力的试题数量符合命题计划要求，然后根据命题设计编制由各种题型组成的试卷。

五、考核结果分析

对考核结果进行科学的解释是可靠、有效评价的重要保证。对试卷考试结果的描述主要包括两个基本步骤：一是绘制学生成绩分布图；二是计算平均成绩和标准差。

（一）绘制学生成绩分布图

通过成绩分布类型分析，可以对试题质量进行粗略的评价。在考试人数足够多的情况下，成绩分布可以呈现两端低中间高的形状，但是我们不能就此判定该分布为正态分布；在人数较少情况下（如高校的一个班），有时考试成绩分布看上去可能很不规则，然而不能就此判定该分布不符合正态分布，而应该采用统计学方法——分布的正态性检验进行检验。成绩分布的类型一般有：正态分布、正偏态分布、负偏态分布、平坡型分布、陡峭型分布、双峰型分布。

正态分布（normal distribution）：说明测试结果与学生的实际情况一致，各种难度的试题比例合理。由于自然人群中个体智力分布特征呈正态分布，学生学习成绩的分布在外界条件相同情况下，因受智力影响较大，也呈正态分布。当考试成绩分布呈正态分布时，测量效果符合自然分布规律，试题质量较好。

正偏态分布：说明试题难度偏高，难度较大的题目比例偏大。这种试题有利于将成绩优秀的学生和中等程度的学生区别开，但不利于将中等程度的学生和成绩较差的学生区别开。

负偏态分布：说明试题难度偏低，难度较低的题目比例偏大。呈这种分布的试题有利于将成绩较差的学生和中等程度的学生区别开，但不利于将中等程度的学生和成绩优秀的学生区别开。

平坡型分布：说明试题中各种难度的项目比例接近，梯度较大。这种试题区分度较高，但分数之间的差异偏大。

陡峭型分布：说明试题中同等难度的项目较多，梯度偏小。这种试题几乎不能将不同程度的学生区分开，分数分布过于集中。

双峰型分布：说明试题存在两极分化现象，即难度偏高的和难度偏低的试题较多，而中等难度的试题偏少，试题难度的分布缺乏梯度，不够合理。这种试题可以区别中等程度的学生，但不利于区别出成绩优秀的学生和成绩较差的学生。

（二）计算平均成绩和标准差

平均分（mean）是表示考试分数的集中趋势的一种统计量，是教育测量中最为基本的统计指标之一。平均分在一定程度上反映了试卷整体的难度。平均分低，试卷难度高；平均分高，试卷难度低。

标准差（standard）是描述一组分数离散情况最常用、最可靠的统计指标。标准差与平均分一样，也是教育测量中最为基本的统计指标之一。

六、试题和试卷质量分析

试卷质量直接影响评价的可靠性和有效性。为了不断提高试卷的质量，需要对试题质量、试卷总体质量进行评估。对每一试题进行质量分析常用的指标是试题的难度和区分度，对一份试卷进行质量分析常用的指标有试卷的难度、区分度、信度和效度。

难度、区分度、信度、效度并称为“考试四度”，是试卷质量的重要评价指标。信度和效度是对考试误差的估计。任何考试都或多或少存在考试误差，因此百分之百可信的考试几乎无法得到。

（一）难度（difficulty）

难度有试题难度和试卷难度，难度系数用P表示。试题难度是指每一试题的难易程度，试卷难度是指试卷平均难度或加权试卷平均难度。

试题难度系数与试题实际难易程度正好相反。难度系数大，试题的难度小，能够正确解答该题的学生多，或该题的得分高；而难度系数小，则试题较难，能够正确解答该题的学生少，或该题的得分低。难度系数反映了考试对学生的适宜程度，试题太难或太容易都不能准确反映学生的实际水平。一般认为，适宜的难度系数应在0.4～0.7之间，一份试卷所有试题难度系数的平均值最好在0．5左右。P＞0.7，说明试题太容易；P＜0.4，说明试题太难。

1.客观题难度系数的计算。

客观题难度系数的计算公式为：P＝R／N

其中，P为试题的难度系数，R为该题答对的人数，N为参与该题测验的人数。

例如有100人参加考试，答对某道选择题的人数是68，则该选择题的难度系数为：P＝68／100＝0．68。

2.主观题难度系数的计算。

主观题难度系数的计算公式是：P＝x／W

其中，P为试题的难度系数，珚x为该题全体考生得分的平均值，W为该题的满分值。例如某道题目全体考生的得分平均值为9分，该题的满分值为15分，则该题的P值为：P＝9／15＝0．6

3.试卷难度的计算。

试卷难度的计算公式：P＝珚x／W

其中，P为试卷的难度系数，x为试卷平均分，W 为试卷满分。

（二）区分度（discrimination）

区分度用符号D表示，D值越大，区分度越好。区分度也有试题区分度和试卷区分度之别。

计算区分度的方法很多，对同一个试题的考试成绩采用不同的区分度计算方法进行计算，所得值是不同的。下面主要介绍用极端分组法计算区分度。此法简便，易于理解，但所得结果不十分精确，通常只在教师自编试卷进行的小规模测试中应用。

1.客观题区分度的计算。把学生考试总分由高到低排序，取前27%的学生作为高分组，取后27%的学生作为低分组，则该题区分度为：

D＝（27%高分组学生的平均得分－27%低分组学生的平均得分）／该题满分值或D＝P1－P2（P1＝27%高分组的难度系数，P2＝27%低分组的难度系数）

2.主观题区分度的计算。主观题区分度的计算在分组和计算公式上都不同。在分组上，高分组为考试分数在总体排序中处于前25%的学生组，低分组为分数排序在后25%的学生组。计算公式：

D＝（XH－XL）／n（H－L）

上式中，D表示区分度，XH表示高分组得分总数，XL表示低分组得分总数，n表示总人数的25%，H表示该道题的最高得分，L表示该道题的最低得分。

区分度是对试题进行筛选的主要依据，一般认为：D＞0．4的试题区分度为“优”；0．3≤D≤0．4的试题区分度为“良”；0．2≤D＜0．3的试题区分度为“可”，使用时需改进；D＜0．2的试题区分度为“差”，必须改进或淘汰。

3.试卷区分度的计算。27%的高分组学生的平均分为X1，后27%的低分组的学生的试卷平均分为X2，试卷满分为W，试卷区分度为D，则：D＝（X1－X2）／W。

4.难度和区分度的关系。难度和区分度是评估试题和试卷质量的两个主要指标，两者之间存在着密切的关系。区分度的提高主要是通过控制试题难度实现的，只有适宜的难度才会有很好的区分度。一般认为，0．5难度的试题具有最好的区分度。

但在实际编制试卷时，不能要求所有题目的难度均为0．5。因此，当我们希望考生的成绩呈正态分布时，试题难度的分布也以正态分布为好，即特别难与特别容易的试题均少一些，中等难度的试题多一些，所有试题的平均难度最好为0．5，这样试卷才具有较高的区分度。

（三）信度（reliability）

信度指测量结果的稳定性和可靠程度。信度高说明考生分数不易受偶然因素造成的误差影响，可以比较真实地反映考生的实际水平。在实际应用中，信度检验多以相关系数r 表示。信度通常可分为：折半信度、重测信度、复本信度和评分者信度等。

折半信度（split‐half reliability）：将全部试题分为相等的两半，如奇数题和偶数题，分别计算每个考生两半试题的得分，再求两个得分的相关系数。折半信度是测量内部一致性的简单方法。有的测量不可能再重测一次，不能计算重测信度，或者没有复本，不能计算复本信度，可以进行折半信度计算。计算折半信度时，需注意分半方法。

重测信度：重测信度（test‐retest reliability），又称再测信度。应用同样的试卷，对同一组学生先后两次进行测验，然后计算两次测验所得分数的相关系数。相关程度高，表示前后两次测量的一致性高，试卷稳定性好。评价重测信度时应注意重测间隔时间对重测相关系数的影响。

复本信度（parallel‐forms reliability）：是以两份题型、题数、内容、难度和区分度均一致，但题目不同的试卷考核同一群体学生，然后求得这两份试卷得分的相关系数。

复本信度能够避免重测信度的一些问题，如记忆效果、练习效应等。

评分者信度：是指不同评分者对同样对象进行评定时的一致性。简单的估计方法是随机抽取若干份答卷，由两个评分者独立打分，计算两个评分者所给出分数的相关系数。由于主观性题目是影响评分者信度的重要因素，因此，试卷中主观性题目所占比例越大，越需关注评分者信度。

一般认为，r＜0．5的试卷信度较差，0．5≤r≤0．8的试卷信度良好，r＞0．8的试卷信度非常好。

（四）效度（validity）

效度是指测量结果的准确性和有效性程度，即测试结果与测试目标的符合程度。

效度反映了考试的准确性和有效性，是衡量考试结果对考试目标实现程度的指标。常用的效度指标包括：内容效度、效标关联效度等。

内容效度（content validity）：是指一次测验是否测量到了具有代表性的教学内容。内容效度是一种逻辑效度，它不能用数量化的指标来说明，而只能通过对考核内容和课程目标进行比较分析得出。提高考试的效度要注意两个方面的问题：一是考试的目标要明确，是要考核学生对基础知识的掌握，还是要考核学生推理判断的能力，或是两者兼而有之；二是试题的设计要能有效地体现考试目标，客观性试题一般用来考核学生对基础知识的掌握，非客观性试题则用来考核学生应用知识进行推理判断的能力。

效标关联效度（criterion‐related validity）：是指某一考核分数与其效标分数之间的相关性。效标是衡量测量有效性的外在标准。效标关联效度是一种统计效度，可用具体的数字来说明，一般认为r≥0．4的试卷才可以有效地实现考试的目标。

效度和信度是密切相关的，信度是效度的必要条件。效度高的测验，信度一定比较高；但信度高的测验并不一定有效度。

七、学生成绩评定和记载

学生成绩评定可以分为量化评定法和定性分析描述法。量化评定法根据评分标准的不同，分绝对评分法和相对评分法。定性分析描述法有等级评定法、评语法等。

（一）量化评定法

1.绝对评分法。以护理专业的培养目标或课程教学目标作为评分的依据，评价学生是否掌握了全部的内容。一般是通过选择一部分具有代表性的题目考核学生，根据学生的考核成绩推断学生掌握知识和达成目标的程度，绝对评分的准确程度依赖于试题的内容能否准确反映教学目标的要求。绝对评分法以学生原始的考核成绩为依据，评定学生达成教学目标的程度。

通常我们把教育测量直接得到的分数叫做原始分数或卷面分数。原始分数单位不等值，不能进行直接比较。

2.相对评分法。相对评分法是以课程考核的平均成绩作为依据来判定每一考生在该集体中所处相对位置的评分方法。常用的相对评分法是记录和使用导出分数。

所谓导出分数（derived scores）是指由原始分数转换成的可以直接比较的量表分数。

常用的导出分数有：Z分数、T分数、百分等级分数。

（1）Z分数。也称标准分数，是将原始分数与其平均数之差除以标准差所得的商。

表示原始分数在团体中所处的相对位置，亦即在平均数之上或之下多少个标准差的位置。

Z分数的计算：

Z＝（原始分数－平均数）／标准差

用公式表示：Z＝（X－M）／S

上式中，Z为某生的标准分数，X为某生的原始分数，M为集体原始分数的平均数，S为集体得分的标准差。

一组数据中各原始分数的Z分数的平均数为0，标准差为1。

例题：某医院护理部在选拔毕业生时进行了专业知识测试，内科护理平均成绩70分，标准差为5分，外科护理平均成绩80分，标准差10分，护生甲成绩是内科护理60分、外科护理90分，护生乙成绩是内科护理90分、外科护理60分。问该两生的考试成绩谁好？

按照标准分数计算公式计算：

护生甲：Z内科＝（60－70）／5＝－2

Z外科＝（90－80）／10＝1

内外科综合后，其标准分数是－1。

护生乙：Z内科＝（90－70）／5＝4

Z外科＝（60－80）／10＝－2

内外科综合后，其标准分数是＋2。

由此，我们可以看出，尽管两生总分都是150分，但通过Z分数的计算，可知护生乙的考试成绩好于护生甲。

第53章 护理教育评价(4)

第53章护理教育评价(4)