第20章在招聘中测评技术的应用(1)

测评是近几年开始比较热门的一种人员遴选的手段，既有用于企业内部的人才选拔，也会用于从外部招聘人员。国务院国资委这些年在为下属的国有大中型企业选聘高级管理人员时，测评就是选择过程中的一项重要手段。那么，我们应该如何看待测评？

我是从2001年开始接触测评的，在实践中也应用了几年时间，后来基本上就不用了。从实践的角度来看，是因为测评的效果一般。当然，测评工具本身的效度也是有很大关系的。通常，测评效度要想越高，使用成本也就越高。我们从2001年起，在公司内部进行管理人员选拔的时候，使用了一些测评工具，后来通过跟踪发现，测评的准确率很一般。

在对测评本身进行评价之前，也可以看一下测评的依据是什么。测评本身，来自于心理学的理论，即通过对人的外在表象的分析，对人的心理特点、性格特征进行判断，并在此基础上，对于其未来某些方面的发展做出推断。从人力资源管理的角度，测评本身的价值，是和我们熟悉的“冰山”理论相关的，也就是说，一个人外在表现出来的知识、技能，是由其内在的价值观、自我形象定位所决定的，而决定一个人价值观和自我形象定位的，则是他的个性、人格和社会动机及内驱力。知识和技能作为外在表象，是容易看到和评价的，而个性、内驱力等，属于一个人内心的、甚至是潜意识的特征，难以在短时间内从外在的表现上直接做出评价---除非通过长时间的接触、观察和了解。通过测评，可以在一定程度上对一个人的个性、特质和内在动机做出判断。

从理论上来说，测评的价值是非常高的。用人单位无论是招聘新人，还是在内部对员工进行提拔，都希望能更充分地了解被招聘或被提拔的人，但在短时间内对一个人的了解，是比较困难的，因此，测评会给我们很大的帮助。虽然测评有着这么好的应用价值，但为什么我们在实践中，对于测评的应用并没有达到非常广泛的程度，在实践中也没有成为我们选人的决定性手段呢？这主要是由于测评本身的几个特点所决定的。

就我个人的理解，测评的实质，是判断一个人的某个特点或特质在人群中的分布，也就是他的这个特点或特质，和绝大多数人比起来，处于什么样的情况。这个结果可以用量化或数字的方式来衡量，也可以用非量化的方式来评价。例如，智商测评就是用量化的结果来显示一个人的智力发展水平与其他人相比，处于什么分布的一种测评方式。如果我们只说一个人的智商是140，这其实是没有任何意义的，只有我们同时了解到，智商是140，代表了天才，也就是意味着这个人要比绝大多数人，或者说99.99%以上的人都聪明时，这个数字才有价值。这时我们就可以通过测评得出结论，这个拥有140的智商的人，是一个很聪明，或者说基本上可以讲，他会比身边和他一起共事的所有人都聪明---当然，前提是这个用人单位不是一个积聚天才的地方。

例如，卡特尔十六种人格因素测验（简称16PF），就可以看作是一种非量化的评价方式。卡特尔十六种人格因素测验是美国伊利诺州立大学人格能力测验研究所一位叫做卡特尔的教授，经过数十年的系统观察和科学实验，以及用因素分析统计法慎重确定和编制而成的一种较为精确的测评方法。这种测评方法能以约四十五分钟的时间测量出十六种主要人格特征，凡具有相当于初三以上文化程度的人都可以使用。这种测评方法，会在结果中告诉我们，被测评者的十六种人格分布情况，例如这个人的乐群性属于高还是低，自律性属于高还是低，等等。十六种人格因素是各自独立的，相互之间的相关度极小，每一种因素的测量都能对被测试者的某一方面的人格特征作出判断，并在此基础上对被测评者人格的十六种不同因素的组合做出综合性的了解，从而全面评价其整个人格。这时的结果描述，虽然也有分数，但基本上是用文字的方法来描述被测者的性格分布。

测评的过程，基本上是通过被测者回答一系列问题，然后对回答进行分析而得到的。

了解了测评的基本原理和方法后，我们就比较容易理解测评本身的不足了。

1. 首先，测评的结果，是将被测评者和人群进行比较的结果，比较的基准有偏差。

这就带来了一个问题，这个人群指的是什么样的人群？理论上说，应该代表地球上的所有人，但这是明显不可能的。通常来说，这个人群往往只是一个国家或一个民族，或是更狭窄范围内的一类人。因此，这种测评本身，就会带上了明显的文化差异。而文化对一个人的成长的影响又是十分巨大的。从我们自己的生活经验可以判断出，对同一个问题的认识，不同国家的人，即使受到的教育一样，看法也可能截然不同。这就是文化的影响。例如，对加班这个问题，在欧美国家，加班显然不是一件会受到正面评价的事情。而在不少亚洲国家，例如韩国、日本和中国的很多地方，主动加班会被赋予较高的社会评价。再举一个更典型的例子。在中国，谦虚是一种被广泛认可的美德，但在欧美国家，可能敢于表现自我被认为体现了人的自信与能力，从而会更受到欣赏。

这种文化的差异意味着，如果用于比较被测评者的人群，和被测评者本人，不是一个文化体系内的，就会使得这种测评在较大程度上失去应用价值。遗憾的是，测评本身，来自于西方国家，而国内在引入国外的各种测评体系时，主要引入的是测评题目和分析方法，但对于测评背后用于评价和比较的人群特征，却没有进行相应的更新，使用本地人群的数据，这就变成了拿中国人和国外的人群进行比较的情况，也就使得测评的效度降低了。从理论上说，这个问题不难解决，只要对国内的人群进行抽样统计，建立起可用于比较的常模，测评的效度是能够提升的。但从技术上说，这样的操作需要很长时间的数据积累，需要做大量的统计分析，需要大笔的资金投入，需要相当多的人力投入，这就使得这个理论上可行的做法，在实践中变得非常困难。

就像前面提到的卡特尔十六种人格因素测验，设计者花费了数十年的时间，做了大量的实证研究之后，才建立起这样的一个模型，其结论是来自于对大量数据的统计分析。但国内，很少会有人愿意以这么长的时间、投入如此巨大的精力去做类似的基础性研究。从2000年开始，我就注意到国内有一些专家在做这方面的数据收集和分析，遗憾的是，将近十年过去了，也没有看到一个得到广泛应用的、符合中国人特点的、效度很高的评测系统。

2. 测评体系的第二个问题，是由于有不少机构或公司，出于商业目的，大范围地推广了各种测评系统，使很多人了解了这些测评系统，降低了测评的效度。

考试和这里谈的测评不一样。考试的目的，是看被考者对于需要了解的知识或技能的掌握程度，理论上来说，是越高越好。而测评本身，并不是说看一个人对知识和技能的掌握程度，而是要看被测者在人群中属于何种分布。因此，只有被测者的如实回答，才能客观反应其各种被测特质。测评是通过让被测者回答各种问题来做出判读的，如果被测者非常清楚地了解每个题目背后的判断标准，这个测评就会失去意义。因为被测者完全可以根据测评的目的，有针对性地做出测评者需要的回答，而不是回答他本人的真实情况。

当然，为了改变这种情况，一些测评系统引入了题库的概念，可以在部分程度上解决这个问题。但需要知道的是，题目的设计不是一件很随意的事情，每道题目背后，需要了解以及如何判断被测者哪方面的特质，是需要花很多心思来设计的，这使得题库的数量不会太容易增加，而网络的普及，使得被测者非常容易了解到各类题目背后的意图。换句话说，被测者对于测评系统的深入了解，使得一般性测评的效度降低了。

为了改善这个问题，有的测评系统会对测评的时间做出要求，这样，如果被测者不是出于本能的回答，而是考虑投其所好选择答案，就会面临测评时间不够用的问题。这个思路本身没有问题，但在实践应用上也会面临诸多矛盾。例如，我们按照谁的时间来确定标准时间？不同的人反应速度不一样，如果按照一般人的反应速度来设置标准时间，就会使得那些反应速度较快的人能有富余的时间做出“投其所好”的回答，从而降低了测评结果的有效性。而恰恰这些人，往往应该是测评的重点。但如果按照这类人的标准设定标准的测评时间，又会使得那些反应速度稍慢的被测者无法完成全部的测评，而就此做出结论：这些人不合格或者不适合用人单位的要求，显然又是不客观的。

上述分析只适用于那些将被测者和常模进行比较的测评系统。还有一类测评系统，评价结果完全依赖于测评者的主观判断，罗夏墨渍测验（Rorshach Test）就是典型的一种。

罗夏墨渍测验也一种人格测验方法，在临床心理学中使用相对较多。这种测验是向被测者展示标准化的由墨渍偶然形成的图版，让被测者自由地看并说出由此所联想到的东西，然后将这些反应用符号进行分类记录，加以分析，进而对被试人格的各种特征进行诊断。罗夏测验因利用墨渍图版而又被称为墨渍图测验，是众多心理投射法之一。虽然这种方法有很多优点，经过多年的研究和应用，也已形成了许多实施方法和记分系统，但有许多问题总是仍未得到很好解决，诸如未受过专业训练的人不易掌握，而最关键的一点是，对测验结果的解释明显带有测评者的主观经验，这就难以分清测验本身的效度与测评者解释结果的效度等等。如果一个测评系统，在最后的结果应用上，完全依赖于测评者本人，而这个测评者又不是最后的用人部门，从招聘的角度来说，这种应用就会极不靠谱。这也是类似的测评体系在招聘中基本上很少应用的原因。

与此类似的，还有现在被一些机构所推广的笔迹分析技术。按照其中一些机构的说法，笔迹分析技术的准确性达到了90%以上，已经成为大多数世界500强公司选人的主要标准。因我比较孤陋，并没有一一核对世界500强公司是否真的把笔迹分析作为选人的主要标准，我只是研究了一下笔迹分析技术的基本思路。比如，人的性格在笔迹上的投射等等。

第20章 在招聘中测评技术的应用(1)

第20章在招聘中测评技术的应用(1)