第16章进阶作业与诊断性测验

书签收藏评论目录封面

像论述题一样，表现性评价主要是用来测量那些不能被客观性试题很好测量的学习结果。一般来讲，客观性试题重在测量事实性知识和解决结构性很强的问题的能力，而表现性评价更适合于提出问题，收集、组织、分析和处理信息等结构性不强的问题，表现性评价对于测量创作、口头或行为表现是非常有用的。

表现性评价需要记录学生在问题解决过程中的外显行为或学业成果，以此评价学生的各种能力。在表现性评价中，教师必须根据详细的评分规则进行观察和记录才能保证资料的全面性、完整性、真实性。这与传统评价中的资料收集方式有着明显的差别，表现性评价又分限制性表现性评价与扩展性表现性评价两种类型。

限制性表现性评价任务通常描述得很明确，比如，让学生完成一项化学实验，在给定实验器材与规定实验步骤的情况下，预期的学生行为可以预测，因此，教师对学生的评定也相对容易，比较客观。

扩展性表现性评价则需要学生充分地发挥自己的才能，比如，C20慕课联盟组织的全国高等学校师范生微视频大奖赛，学生可以任意选择自己熟悉的学科领域，在制作过程中充分地发挥自己的想象力与创造性。学生完成这样的任务一般需要花费较多的时间，教师的评分也会受到个人爱好与欣赏角度的影响。

当然，限制性表现性评价与扩展性表现性评价是表现性评价的两个极端，大多数的表现性评价处在这两者之间。

3.学生成长记录。学生成长记录，也称“档案袋评价”。学生成长记录的类型是多种多样的。华东师范大学李雁冰博士在“质性课程评定的典范：档案袋评定”中归纳了美国南卡罗米纳大学教育学院教育心理学教授格莱德勒(Margaret E.Gredler)对档案袋的不同功能所作的分类，划分出如下类型。

档案袋评定的类型

类型构成目的

理想作品产生和入选说明，系列作品，以及代表学生分析和评定自己作品能力的反思。帮助学习者成为自己学习历史的思索者和非正式的评价者。

展示由学生选择出来的最好和最喜欢的作品集。自我反思与自我选择比标准化更重要。给由家长和其他人参加的展览会提供学生作品的范本。

文件根据一些学生的反映以及教师的评价、观察、考查、轶事、成绩测验等而得出的学生进步的系统性、持续性记录。以学生的作品、量化和质性评价的方式，提供一种系统的记录。

评价主要由教师、管理者、学区所建立的学生作品集。评价的标准是预定的。向家长和管理者提供学生在作品方面所取得成绩的标准化报告。

课堂由三个部分组成：（1)依据课程目标描述所有学生取得的成绩的总结；(2)教师的详细说明和对每一个学生的观察；(3)教师的年度课程和教学计划及修订说明。在一定情境中与家长、管理者及他人，交流教师对学生成绩的判断。

在详述成长记录袋中，一般需要下述材料：

（1）内容清单；

（2）知识与技能的鉴定；

（3）学生最佳作品的代表性样本；

（4）所有项目的日期；

（5）使用的评估标准（或评分说明）；

（6）学生对所有项目的自我评价与对有关问题的说明。

4.行为观察。行为观察是我国中小学教师最熟悉的评价方法之一，人们常用的“操行评定”就是立足在行为观察基础之上的。

日常观察可以为教师提供大量的关于学生学习和发展的信息。例如，学生在课堂中注意力集中的程度，小组讨论中主动参与的程度，在回答问题中思维深刻的程度，以及平时与其他同学相互合作的程度等等。再如，在实验操作中，学生对有关仪器使用的熟练程度，对实验程序把握的程度。这些信息补充和证实了通过其他客观方法获得的信息。由于目前对学生认知与情感发展的一些重要方面人们还缺少更为可靠的方法，所以，在很多时候，它事实上成为了教师评价学生这些方面的唯一方法。

行为观察通常又可分为结构性观察与非结构性观察。

所谓“非结构性观察”就是教师不预设范围的观察。在“非结构性观察”过程中，不断发现问题，以便随时根据发现的问题调整自己的观察重点。

“非结构性观察”简单易行，但它往往存在随意性、片面性以及与教师个人性格爱好有关的选择性等方面的问题。比如，外向型的教师可能较多地关注学生在课堂活动中的活跃程度，而内向型的教师则可能更多地关注学生在互动过程中思维的深刻程度。

所谓“结构性观察”，通常是教师在“非结构性观察”的基础上，根据教学或学生存在的问题，事前预先设想好观察的主要方面，有时还可以事先确定好观察的提纲或指标有重点地进行调查。比如，在翻转课堂的实验中，为对比传统课堂，人们可以列出6项指标：

（1）学生课堂学习的主动性与课堂氛围的融洽度；

（2）学生在各种课堂活动中的参与度；

（3）学生在团队活动中的融洽度；

（4）师生关系的融洽度；

（5）学生对相关知识的掌握度；

（6）学生在互动过程中思维的深刻度。

“结构性观察”可以使观察者有意识地放弃一些非重点的方面，而把观察的重点集中于学生在发展过程中的一些关键事件，从而使得行为观察能更好地服务于学生发展。

不过，无论是“非结构性观察”还是“结构性观察”都会受到观察者的一些心理因素的影响，通过观察所获得的结论有可能是不完整的或带有偏见的。

研究表明，由观察所形成的评价误差有下述几种情况。

1.晕轮效应。晕轮效应也称社会刻板印象作用。从本质上说，晕轮效应就是把得到的某个人的信息，按一定的方式分类，然后按事前形成的类别处理其他的信息。这个早已存在的“成见”，妨碍着教师观察学生的真正特点和表现。

它的表现是：人们常把好的特点归结为好人的特点，坏的特点归结为坏人的特点。在对人认识的肤浅阶段，晕轮效应是常会出现的。

晕轮效应可能会给评价带来两方面的偏差。第一，所谓“以差概好”的“扫帚星效应”，即因为根据某些事例，对被评价者某一方面得出了较差的印象以后，会把其他弱点也加到他身上，而且对他的优点，也会作出不信任的解释或不恰当的归因分析。例如，平时被教师认定为“差生”的同学在课堂上提出一个极具挑战性的问题，很可能就被教师认为又在捣蛋，扰乱课堂秩序。然而，如果同样的问题由一位所谓“好同学”提出，就有可能得到教师的赞扬，认为该同学很有创新意识。

第二，所谓“以好概差”的“遮掩效应”，即因为教师对学生某一方面产生好感，而把这种好印象泛化到其他方面去，忽略其缺点，或者认为其缺点无关紧要。所谓“一俊遮百丑”就是这种“遮掩效应”的典型反映。

2.逻辑误差。逻辑误差是在对两个没有必然联系的属性进行评价时，由于对其中某一属性肯定的评价而产生的对另一属性肯定的评价。逻辑误差与晕轮效应不同。晕轮效应是评价人由对某人总体肯定或否定的评价所产生的对被评人某一属性肯定或否定的评价；逻辑误差则是评价人对被评人某一属性肯定或否定的评价所产生的对另一属性肯定或否定的评价。在学生评价中，逻辑误差最典型的是被评学生学业水平高，教师就理所当然地认为其思想道德水平也高。事实上这两者并没有必然的联系。在理论上，教师也知道这两种属性在逻辑上没有必然的联系，但在实际的评价活动中，由于对前一种属性进行评价时所形成的心理准备，影响了对后一种属性的评价，因此，它也是知觉定势的一种反映。

3.情绪效应。不少批阅试卷的教师都有这样的体验：当心情不愉快时，往往“笔下无情”，扣分相对多一点；而心情喜悦时，则常常“笔下留情”，扣分相对少一点。这一事实说明一个道理：人们对事物的知觉受到情绪的影响很大。这种现象用心理学的名词来说就是情绪效应。

情绪在知觉中的作用在于：它提供一种定势去感知被评对象好的、积极的方面，或坏的、消极的方面。对此，美国心理学家克雷奇等人曾经有过一段描述：“如果我们是在美好的心境中开始一天的话——有着定势去知觉每一件事情的最好的方面——我们几乎必然地在我们遇到的任何情景下都能发现和看到一线光明。”

情绪效应在学生评价中很可能造成情绪误差。当教师处于情绪低潮时，往往会注意力分散、反应迟钝、效率下降。这时，评价中的误差就会增加。反之，教师在评价过程中心情特别愉快时，也可能会对被评价者特别宽容，评价也可能相应提高。在这种情况下，评价的客观性就难保证。

4.投射效应。人们有一种倾向，往往假设他人与自己是相同的，特别在他人某方面的特点与自己相似时，这种倾向就更加强烈。心理学上把这种将自己的特性归属到他人身上的现象称为投射效应。

投射效应实质上也是一种心理定势的表现，它以评价人自己的心理特征作为认识他人的准备，作为认识他人的标准。由于评价人往往把自己的某种品质、性格、爱好投射到，甚至可以说是强加到被评价者身上，以自己为标准去衡量被评价者，从而使评价的客观性打了折扣，最终使评价结果产生误差。这种类型的误差，一般称为相似误差。

由于行为观察是一极具个人色彩的活动，观察结论需要产生在教师连续与全面地观察基础之上，然而，师生交往在时间上具有间隔性，教师对学生的观察不可避免地带有片面性，且很容易受到上述心理因素的影响，所以，一般在对学生的评价中，需要把行为观察与其他评价手段结合起来。

当然，克服这些问题，也有一些简便易行的方法可用，轶事记录法就是其中的一种。轶事记录法强调在每个事件发生之后对观察到的有意义的事件和片段立即用书面的形式简短记录。一个好的轶事记录应该保持对事实的客观描述，而不是对行为含义的解释。这种记录可以减少选择性记忆所引起的问题，也可以克服由各种心理因素引起的误差。

三、诊断性测验结果的反馈与利用

诊断性测验作为一种评价的方法，它本身不是目的，它的目的在于促进学生的学习与教师的课堂教学。因此，从测验结果入手来诊断课堂教学是常见的一种方式。在总结我国不少学校教学评价的基础上，祝新宇在其博士论文中概括了一种称为“基于教学结果分段检测”的模式。

祝新宇指出：所谓“分段检测”模式其实是课堂教学诊断模式中较为直接的一个方法，即在明确结果与过程间相互对应的基础上，从结果出现的问题直接找过程中相应的问题发生点。这有点类似于平常的电话线路的检修。如果通讯线路出现了问题，维修人员通常都会分地段一段一段的检测线路信号是否通畅。一旦发现某个地段的信号失真或检测不到，那么维修人员就会对该地段再进行重点分段检测，直至找到通讯信号的“断点”，最后排除故障。课堂教学的“分段检测”模式的思路大体也是如此。根据知识技能的不同层次，分别对这些层次上的学习结果进行测试。如果学生对概念认识不清，则表明教师在理解层面的教学上存在问题。如果学生解题能力较差，则反映出在应用层面的教学上可能有不足之处。以此类推，每一段的检测都能找出相应的教学“断点”。这种模式直接、简明，因而是学校教师常用的一种有效的教学诊断模式。

事实上，在谈到诊断性测验试卷编制时，我们已经强调了试题要反映“知识—能力连续体”的各个部分。一份优秀的试卷也要为学生呈现他们认知过程提供具有一定梯度的“脚手架”。这个形成一定梯度的“脚手架”，就为人们诊断教学的“断点”提供了基础。一个设计良好的慕课测试平台将会为教师分析教学问题提供专家型的服务。

第16章 进阶作业与诊断性测验

第16章进阶作业与诊断性测验