第18章智力测验可靠吗

我对这样的智力定义感到忧虑：打着有利于人类的幌子，将人的认知能力压缩成测试。

——著名心理学家霍华德·加德纳

在美国，大学录取中的标准化测试被称为SAT，世界各国高中生申请进入美国名校学习都需要参照这一考试结果。很多人知道SAT考试，但知道其来历的人就没有那么多了。其实，SAT的源头正是哈佛大学开创的一种智力测验。

1933年，哈佛大学校长詹姆斯·科南特决定启动一个奖学金，吸引公立学校的优秀学生到哈佛大学学习。科南特交给副手亨利·昌西一个任务，要求他设法找出一种甄选奖学金候选人的考试方法。昌西找到了伯林翰，也找到了伯林翰的SAT考试。科南特校长很欣赏这种考试，因为这种考试只是纯粹的智力测验，而与参试者所学的高中课程和所受教育完全无关。

1934年，哈佛大学将SAT考试用于甄选奖学金申请人。次年，哈佛大学把这个考试推广应用于所有申请哈佛大学的学生。后来，它进一步成为美国通用的高考模式。

现如今，智力测验已经是一个被大众神奇化了的概念，智力测验的得分（智商）就如同圣经一样，一个数字就决定了人们智力的高低。我们经常能在报刊上看到这样的报道，某某是一位天才，他的智商达到了140，某某智力低下，智商只有70.

现在的网络世界如此发达，我们随便Google一下就能找到一打的智力测验题，如果将这些智力测验题一一做下去，你会得到一打不同的智力分数。为什么不同的智力测验会得到不同的分数？这些分数可靠吗？或者说，这些分数到底能说明什么？让我们先从智力测验的历史说起。

智力测验的历史

现代智力测验最早开始于法国心理学家阿尔弗雷德·比奈。1904年，法国政府通过了一项法案，要求所有的儿童必须上学。这项法案带来了一个问题，就是教师们无法确定小孩适宜的课程。例如，有些小孩9岁了，可他只具备6岁儿童的心理能力。于是，法国政府找到了比奈，希望他能设计出一种测验，测量儿童的实际学习水平。

在合作者西奥多·西蒙的帮助下，比奈设计出了最初的智力测验——比奈西蒙智力测验。

他们设计出了一系列的题目，然后对不同年龄段的儿童进行了测验，得出了不同年龄段正常儿童的平均得分。这些平均得分作为测量标准与个体单个的分数进行比较，最终的结果以心理年龄来表示。例如，如果你的得分与7岁组儿童的平均得分一样，那么你的心理年龄就是7岁。老师们不管你的实际年龄是几岁，而为你准备7岁儿童应该学习的课程。

在比奈看来，他所设计的测验能够测量人们的学习能力，换句话说，比奈西蒙智力测验可以预测人们的学业成绩。除此之外，它毫无作用。

1911年，在比奈去世以后，斯坦福大学的教授刘易斯·推孟对比奈西蒙测验进行了改编，使其更适合美国的青少年，称为斯坦福—比奈智力测验。新的测验第一次运用了智商这一概念。该概念首先是由德国心理学家威廉·斯特恩提出来的，在比奈西蒙测验计算心理年龄的基础上前进了一步，将智商定义为一个人心理年龄除以实际年龄后的百分数。

IQ=心理年龄/实际年龄×100%

推孟设计的斯坦福—比奈智力测验将智力测量推广到了教育、军事、医疗等各个领域，但同时也带来了一定的负面效果，即让人们对测验结果产生了误解。推孟设计测验的最初目的是为了比较青少年在“先天禀赋”上的差异，但许多人将其作为种族歧视的工具——因为移民们（有色种族）在得分上普遍低于美国居民。

推孟为此感到懊悔，他渐渐意识到，测验分数不仅反映了人们先天的能力，还反映了他们的受教育程度和对测验设计者背景文化的熟悉程度。正是因为美国移民普遍教育程度较低，对美国文化也不够熟悉，所以他们在斯坦福—比奈测验上的得分才较低。这并不意味着他们比美国人更为“愚蠢和低劣”。举个例子，让一个刚开始学中文的人和土生土长的中国人去比赛说绕口令或背诵唐诗宋词，胜负结果几乎毫无疑问，不能因为一个美国人不会背“床前明月光”而断定他智商低下。同理，用美国人制定的标准来衡量其他种族的人，得出的结果自然不准确。后来，人们逐渐意识到文化的差异性，开始研制、修订出适合各国国情的智力测验，但这真的切实可靠吗？其实也未必。

现在的斯坦福—比奈测验，包括其他一些著名的智力测验，尽管仍然将测验得分称为智商，但已经不再延续传统的计算方式了。现代的测验将100分作为人们的平均分数（这意味着100分以下的占据了50%），然后根据你在同年龄段人群得分中的位置来计算出你的得分。

著名的传统智力测验

除了比奈西蒙测验和斯坦福—比奈测验外，还有以下几个测验较为出名。

（1）韦克斯勒智力测验

纽约的大卫·韦克斯勒使得智力测验不再依赖于词语测验。他在1939年发明了韦克斯勒智力测验，该测验包括了词语测验和非词语（操作）测验两部分，用来度量个体的词语能力和操作能力。词语测验部分包括词汇、常识、理解、回忆、发现相似性和数学推理等；操作测验部分包括完成图片、排列图片、事物组合、拼凑和译码等。韦克斯勒测验的优势在于，它在给出了总体IQ的同时，也测量了IQ的各个部分：词语IQ和操作IQ。其各个细化部分的分数也揭示了个体在各种能力上的差异。

（2）瑞文标准智力测验

1938年，由英国心理学家瑞文发明的瑞文标准智力测验，用以测验一个人的观察力及清晰思维的能力。整个测验由60张图片构成，并按照难度分成了A B C D E五组，实验参与者要求推理出图片间的逻辑关系，并从选项中选出最符合逻辑关系的一项。

瑞文标准智力测验的特点在于，它是一种纯粹的非文字智力测验，因此可以进行跨文化间的智力比较。适用的年龄也很广泛，从6岁到70岁都可以。

（3）陆军甲种团体测验

该测验是推孟的研究生奥迪斯所编制的，在第一次世界大战中被美国陆军用来筛选新兵。该测验由遵循指导、算术、判断推理、词义异同、语句重组、数序完成、类比、常识八个分测验组成，适用于会英语的大中学生和一般的成年人。

不同于前面提到的测验，该测验是大规模的团体测验，可以在同一时间对多个个体进行测量。

后来，由于甲种团体测验针对的是文化程度较高的士兵，因此奥迪斯又开发出了陆军乙种团体测验，用来测量那些文化程度较低的士兵和文盲士兵。智力测验能说明什么我曾经碰到过这样一位家长，他为孩子的智商只有75而烦恼不已。后来发现，他的儿子只是青少年常有的注意力分散而已，注意力分散了，自然难以完成智力测验。

正如我们前文提到的，智力这一概念所包含的内容越来越多，传统的智力测验已经没有了说服力（它们的目的也不是如此）。而且，就算我们把智力的定义仅仅局限到学习能力上，那些得分的可靠性也是值得商榷的。

首先，一种智力测验很难反映智力因素的全貌。如果智力指的是人们普遍学习能力的话，它至少包括了观察力、注意力、思维力、判断力和想象力五个维度。我们前面提到的那些智力测验，包括现在的许多个版本，它们都只关注于其中的某个或某几个维度。这样得出的分数只能是给于我们个体智力某个方面能力的参考，而不能衡量个体整体智力水平的高低。

为了解决这一问题，许多学者提出了衡量个体整体智力的方案，即将自我评价、双亲评价、同伴介绍、教师观察、成绩测验和智力测验等多种途径结合起来。这样得到的智力分数更具有参考性和可靠性。

其次，智力测验不可避免地要受到受测者和主持者、客观环境和技术水平的影响。测验是人为的，必定会受到人们的情绪、状态、个性等的影响。此外，客观环境的干扰和技术仪器上的误差也是难以消除的。

最后，智力测验得到的分数不能够说明个体的智力发展趋势。个体的智力发展是动态的，尤其是对于青少年而言，智力测验的分数并不能描绘出他们的智力发展趋势。即使A比B的得分要高，但如果B表现出了更强烈的智力增长趋势，那么我们还能说A比B更为聪明吗？“士别三日，当刮目相看”说的就是这个道理。

因此，我们不必把智商看得太重要，它能提供的只是人们学习能力的某个方面的评估和参考。正如心理学家罗伯特·扎伊翁茨所说的：“发明IQ测验是为了预测学习成绩，除此之外，别无他图，如果我们需要一些能够预测人生成功的工具，那就不得不发明另外的工具。”

第18章 智力测验可靠吗

第18章智力测验可靠吗