书城管理人力资源管理实战全案(上)
6139800000032

第32章 人才测评(2)

N--评定者人数;

m--测评项目个数;

Ri--第i项目上所有被测者等级之和或分数之和(这里分数只限于正整数)。

通过问卷等形式的人才测评结果是否可靠、准确呢?再测信度、复本信度、内部一致性信度、评分一致性信度就是衡量测评结果可靠性的方法。掌握、理解这些可操作性的评估信度的方法,对衡量测评结果的可靠性具有重要的意义。

各种信度评估适用情景:

再测信度评估侧重考虑测评跨时间的一致性、稳定性;

复本信度评估侧重考虑测评跨形式的一致性、等值性;

内部一致性信度评估主要反映的是一个测评题目之间关系,考验测评的各个题目是否测评了相同的内容或特质;

评分一致性信度评估主要是考虑评分者的误差。

操作要点

信度的评估方法包括:

再测信度

复本信度

内部一致性信度

评分一致性信度

(第四节)效度评估

效度是评价测评好坏、选择测评的重要标准之一。根据效度评估方法的不同,效度可以分为内容效度、构想效度和效标关联效度三类,下面是一些具体的评估方法。

1.内容效度评估

(1)内容效度评估的涵义。内容效度是指测评题目对预测的内容或行为范围取样的适宜性程度。例如,教师在讲课告一段落后要进行考试,而考题不可能包含讲过的所有内容,必须从中选出一个有代表性的题目样本,编制成测验,然后根据考试分数推断学生对该范围内知识技能的掌握情况。如果测评题目不是该范围内的有代表性样本,或者过难或者过易,那么由此做出的推论,其效度必然很差。因此,取样的恰当性就是影响测评效果的一个重要因素。

(2)内容效度的评估方法。内容效度的确定一般没有可用的数量化指标,只能靠推理和判断来进行评估。较好的内容效度依赖于以下两个条件:测评内容范围明确;

测评内容的取样具有代表性。

因此,要保证良好的内容效度,应该从编制测评开始,谨慎选择合适的测评题目。

为了使内容效度的确定过程更为客观,可以采取如下步骤:

①确定总体范围,即描述有关的知识与技能及所用材料的来源。

②编制双向细目表,确定内容和技能各自所占的比例,并由测评编制者确定各题所测的是何种内容与技能。

③制定评定量表来测量测评的整个效度及其他特点,如测评包括的内容、技能、材料的重要程度、题目对内容的适用性等。由每位评判者在评定量表上做出判断,总结获得测评内容效度的证据。

内容效度的确定还可采用经验的方法,例如,对成就测评可以检查不同年级的被测者总分和每题分数变化的情况。

(3)内容效度评估的应用。内容效度最适合于评估教育和职业成就测评以及某些用于选拔和分类的人事测评。内容效度评估旨在回答以下两个问题:

①该测评是否是应考察的某种技能和知识的代表性样本。

②测评的成绩是否不受无关因素的影响。

内容效度一般不适用于能力倾向测评和人格测评。

2.构想效度评估

构想效度表示一个测评是否达到了对某一理论概念或特质的测量。所谓构想通常指一些抽象的、假设性的概念或特质,如智力、创造力、言语流畅性、焦虑等。如果一个智力测评测得的结果与该测评所依据的智力理论或假设相符合,那么,我们说该测评具有较高的构想效度。

构想效度的确定通常需要综合评价各种不同的资料,一般采取两种途径:一是考察与度量同类构想的测评是否相关;二是考察是否与不应有关的东西无关。例如,羞怯测评的分数应与一个人出现在聚会上的次数、团体中的发言多少以及父母和朋友的评价有关,而与度量其他构想的测评分数,如空间知觉、推论能力等基本无关。

3.效标关联效度评估

(1)效标关联效度的涵义。效标关联效度又称预测效度,是指一个测评对处于特定情景中的个体的行为进行预测的有效性,也就是对我们所感兴趣的行为能够预测到什么程度。在这里,被预测的行为是检验测评效度的标准,简称效标。一个心理构想的外部行为表现可能很多,因此,用于检验测评的效标也很多,效标关联效度也就不止一个。如果一个人在选拔消防员的测评上得分很低,而他在防止火灾和灭火中表现得与真正的消防队员一样好,那么,毫无疑问,这个测评不能用于消防员的选拔,他的预测效度太低了。

(2)常用的效标。效标是衡量测评有效性的参照标准,是一种可以直接、独立测量的行为。即通过把效标行为转换为某种可以操作的测量指标,以便进行比较。这种可操作的测量指标称为效标测量。在测评的过程中,常用的效标有:学术成就、特殊训练成绩、实际工作表现、团体对照和等级评定。不同的效标用于不同的情况。

①学术成就效标属于对学术能力倾向测评的精确描述,常常作为某些多重能力倾向测评和人格测评的效标。

②特殊训练成绩效标常用于能力倾向测评中。

③实际工作表现这一效标常用于起选拔作用的一般智力测评、人格测评及能力倾向测评等。

如果一个测评是有效的,其必定是可靠的。但反过来,一个测评具有很高的信度,则并不一定是有效的。比如,如果我们使用一个指标偏高的秤测量体重,尽管每次测量都得到一致的结果,却并不能准确测出人的体重。

与信度相比,效度是一个更复杂、更重要的概念。内容效度、构想效度和效标关联效度是效度的三种测评维度。

操作要点

效度的评估方法包括:

内容效度评估

构想效度评估

效标关联效度评估

(第五节)项目分析

项目分析是根据测评结果对组成测评的各个题目进行分析,从而评价题目的好坏、对题目进行筛选的程序和方法。

项目分析分为定性分析和定量分析,定性分析主要考虑内容效度,即题目表达的恰当性和有效性;定量分析主要考察题目难度和鉴别度是否适度,即测评题目的难易程度。

测评信度、效度最终都依赖于题目表达的恰当性、有效性及难易程度等特性,因此,通过项目分析,对测评题目进行选择和修改,可以提高测评的信度和效度。

下面对难度分析和测量项目的鉴别度分析的评估进行详细描述。

1.测评的难度分析评估

难度分析评估主要指测评题目难度水平的测定。

测评题目难度水平究竟多高合适,这依赖于测评的目的、性质和题目的形式。

(1)从测评的目的考虑。许多测评都希望能准确测评个体间的差异。如果在某题上,被测评者全答对或全答错,则该题无法提供个别差异的信息,即不能把不同的被测评者区别开来。题目难度(即答对或通过该题的人数百分比)越接近于0或者1,越无法区分被测评者之间能力的差异。题目难度越接近05,区别力越高。因此,设计测评题目时,尽量选择难度在05左右的试题比较合适。

(2)从测评的作用考虑。对于选拔用的人才测评,应该尽量使题目难度值接近录取率。比如,测评若是要辨别或选择少量的最优秀的应试者,那么,测评应该有较高的难度,即题目难度值要小。反之,题目难度值要高。

(3)从题目的形式考虑。一般地,对于选择题,其题目难度以05最为合适;对于是非题而言,其难度值以075最为合适;对于四选一题目,其难度值约为063最合适。

2.测评项目的鉴别度分析评估

项目鉴别度是指测评项目对于所检查的心理特性的鉴别能力和区分程度。

衡量项目鉴别度的指标叫鉴别度指数,是比较效标得分高和得分低的两组被试项目在项目通过率上的差值。

一般情况下,只要鉴别度值大于030时,题目就可以接受了。美国测评专家L·Ebel提出了鉴别度指数的大致标准,可以为我们的实际工作提供参考。详见表22:

表22鉴别度指数标准

鉴别度指数D试题评价

04以上

030~039

020~029

019以下很好

良好,最好修改

可以,必须修改

差,必须淘汰

项目分析可以提高测评的信度和效度。因此,进行项目分析具有重要的意义,确定难度分析值和鉴别度指数则从定量的角度帮助我们衡量题目的好坏和难易程度。

操作要点

项目分析的评估方法包括:

测量的难度分析评估

测量项目的鉴别度分析评估

迷惑答案的有效性分析是对选择题而言的,他是在难度分析和鉴别度分析的基础上进行的。可以根据迷惑答案的有效性分析,为教师提供修改试题的参考信息。

一次测验的考生人数为100人,按考试成绩取前面的27人和后面27人构成高分组和低分组。下表表示该测验的部分试题的项目分析。

题号组别各选项选答人数

ABCDE

答对

人数难度鉴别度

1高分组7(15)023

低分组8(8)04743057026

2高分组23(15)43

低分组14(15)34430570

3高分组(7)4655

低分组(10)643431069-011

4高分组3211(5)6

低分组5315(0)410090019

“()”表示正确的选项,根据表中列出的各题的回答情况,可对每题的设计质量进行分析。

第一题,选项C无论是高分组或低分组无一人选择,说明C对该题没有贡献,应予修改或删除。对于选项A,高分组和低分组几乎有相同的选择,说明该选项有意义含糊之处,也需要修改。本题的难度和鉴别度比较合适。

第二题,高分组和低分组对正确选项选择的人数一样多,鉴别度为0,4个错误选项也具有同等的迷惑力。这很可能是因为题目的编制不当,因此需要进一步修改。

第三题,低分组的答对人数反比高分组答对人数多,鉴别度出现负值,这样的题目或者删掉,或者重新编制。

第四题,高分组的人数有80%以上的学生答错,低分组的无一人答对,可见题目太难。而且答错者较多集中在选项C上,说明选项的迷惑力太强了。

(第六节)编制人才测评标准

人才测评标准的编制关系到人才测评的科学性、有效性。人才测评标准多数采用量表和评语定量化的形式。针对不同的情况,在不同的时期,可以采取不同的编制方法。

1.评语式标准的编制

(1)评语式标准的适用情景。评语式标准就是用文字评述每个要素的不同等级,这是人才测评中运用较广、形式较多的一种标准。

(2)评语式标准实例。表23是某企业编制的管理人才评语式标准的实例。

表23某企业管理人才评语式标准实例

结构要素测评标准

素质结构责任心坚持以责任为中心,热爱本职工作,不扯皮,不拖拉

智体结构敏感性主动正确吸取利用先进经验,对事务反应敏感

能力结构处事能力办事讲效率,充分利用时间,处事既有原则性,又有灵活性

2.量表式标准的编制

(1)量表式标准的适用情景。量表式标准就是用刻度量表形式直观划分等级的一种标准,在测评每个对象后,就可以直接在表上形成一条轴线。量表式标准直观形象,测评结束就进行评价,是一种方便有效的标准。量表式标准通常分为三级、五级和七级,其中最常用的是五级。

(2)量表式标准实例。表24是测评某一管理者能力结构若干要素的量表式标准。

表24量表式标准实例

结构要素测评标准

能力结构信息

沟通

能力信息沟通的方向常常是A.向下;B.多数向下;C.有上有下;D.上下左右。

下级接受信息的态度A.抱有怀疑;B.可能抱有怀疑;C.小心翼翼;D.乐于接受。

向上传递的准确性A.一贯不准确;B.时常不准确;C.一般准确;D.几乎总是准确。

决策

能力制定决策的层次A.上层;B.主要在上层偶然有中层参加;C.上层与中层结合偶然有下层参加;D.贯穿上、中、下层次并能有机结合。

决策是否有利于调动职工的积极性A.不大有利;B.基本有利;C.相当有利;D.几乎总是准确非常有利。

3.对比式标准的编制

(1)对比式标准的适用情景。对比式标准就是将各个要素最好的一端与最差的一端作为两级,中间分为若干等级。对比式标准是在量表式标准基础上派生出来的,可以将功能强与弱的人员明显区分出来。

(2)对比式标准实例。表25是某企业对新职工测评的对比式标准。

表25对比式标准实例

绩效能力结构智体结构素质结构

得分值质量好产量高小改革合理化建议多胜任本职体力强体质好抽象的智力高机械的智力高合群利人责任心强

劳动态度好纪律性强得分值

差低少不弱差低低孤独利己弱差弱

4.隶属度标准的编制

(1)隶属度标准的适用情景。隶属度标准是以模糊数学中的隶属度函数为标度的测评标准,其优点在于使难以精确定量的要素得到客观合理的测评。

(2)隶属度标准实例。表26是某学校使用的隶属度标准。

表26隶属度标准实例

结构要素等级

ABCDE

素质结构事业心工作学习热情忽高忽低,缺乏上进心。在别人带动下能激起工作学习热情,但不能持久。有一定的工作学习热情,有提高自己业务水平和科学文化知识的愿望和行动。有一定的进取心,工作学习热情高,肯钻研,舍得下苦功。无论是在顺境或逆境,始终保持明确的奋斗目标,刻苦钻研,积极进取,有开拓精神。

隶属度函数01~0304~0506~0708~0910

5.行为特征标准的编制

行为特征标准的适用情景。行为特征标准就是通过观察分析,选择一系列关键行为作为测评内容的标准。行为特征标准最大的特点就是强调描述工作行为,而不是评价工作行为,因而比其他方法更易于摆脱个人偏见的影响,但是这种标准的编制难度较大。

6.情景模拟式标准的编制

(1)情景模拟式标准的适用情景。这是一种工作模拟测试的测评标准,即在模拟的工作环境下对被测者行为进行观察和评价的一种测评标准。由于工作样本借助于模拟练习和工作表现(如公文处理、小组讨论和角色扮演等实际操作)来评价被测者的行为,因而比一般的测量或评定更为直接和有效。

(2)情景模拟式标准实例。表27是通过小组讨论和角色扮演等情景模拟来测评管理干部口头表达能力的标准。

表27情景模拟式标准实例

评定等级标准行为

优在个别交谈或集体场合中,能风趣有力地表达思想和见解;

在听众前面始终保持恰如其分的风度;

讲话时始终保持清晰的发音;

发言简洁,要点突出,有条理性和逻辑性,能保持传神的眼光;

在紧张或对立的气氛中,镇定自如。

中在个别交谈或集体场合中,一般能风趣有力地表达思想和见解。但不能经常在听众前面始终保持恰如其分的风度。讲话时一般能保持清晰的发音,但有时有些唠叨。尽管有时缺乏条理性和逻辑性,多数时候还能保持传神的眼光。在紧张或对立的气氛中,有时不太沉着,但一般能自我稳定。