例如,19世纪末20世纪初,许多城市的规划者被马粪所扰,马车的数量日益增加,使得路上的马粪越积越多。1894年一位来自《伦敦时报》的作家致力于研究街道上的马粪问题,他预测到20世纪40年代,伦敦每条街道会被厚达2.7米的马粪覆盖。幸运的是,大约10年后,亨利·福特生产了福特T型汽车,避免了这场马粪危机。
外推法也是人口预测失败的罪魁祸首。1682年,英国经济学家威廉·佩蒂爵士作了一项针对全球人口数量增长的预测,这项预测也许是第一次正式对人口数量进行的预测。由于当时无法获得丰富的人口统计数据,威廉便采取了大量颇具创新性的方法对人口增长进行推断,相当准确地预测到全球人口在17世纪增长速度将放缓。然而,威廉却错误地假设人口增长会一直保持这样的趋势,到2012年全球人口数量可能将过7亿。一个世纪之后,工业革命爆发,人口数量增长率直线上升。世界人口数量在2011年年末已超过70亿,约为佩蒂预测结果的10倍。
斯坦福大学生物学家保罗·R·埃利希和妻子安妮·埃利希于1968年出版了一本颇具争议的书,名为《人口爆炸》,这本书犯了相反的错误,错误地预测20世纪70年代会有一场饥荒夺去几亿人的生命。这项预测之所以失败,原因有很多,包括埃利希夫妇一直倾向的末日说,他们对引发末日的蛛丝马迹颇为关注。但主要问题是,埃利希夫妇认为20世纪60年代性解放时期创纪录的高生育率会无限期地延续下去,需要抚养的人口会越来越多。“在写《人口爆炸》一书时,我认为人类对性爱和孩子的兴趣浓厚,家庭人口很难减少。如果公正有礼地对待女性,给她们提供就业机会,生育率自然会下降。”在一次简短的采访中,保罗这样对我说。那些没有作出这种过分简单化假设的学者当时就意识到这一点了,一般联合国针对20世纪六七十年代发布的人口规划方案的预测都很准确,在这一规划方案中提到未来三四十年世界人口的状况。
在研究对象的数量总在急速增加的领域——包括人口数量增长及疾病领域——中使用外推法常会引发严重的问题。20世纪80年代初期,美国的艾滋病患者数量呈指数型增长:整个1980年共出现99例艾滋病患者,1981年又出现434例艾滋病患者,1984年出现的艾滋病患者竟高达11 148例。你可以将这些数据画成图并据此推断未来的发展模式(当时一些学者就是这么做的),便会得出这样的预测结果——到1995年美国确诊的艾滋病患者人数会升至约270 000人。这一预测本来就不是很准确,可不幸的是,预测结果低估了艾滋病毒的危害性。1995年确诊的艾滋病病例约为560 000人,比预测总数高出一倍。
然而,从统计学的角度来看,更大的问题也许是预测对象的数量呈指数型增长时,用外推法均无法做出准确预测。若恰当使用外推法,就会考虑到这一方法的误差幅度,那么得出的结果就应该是1995年美国感染艾滋病的病例数可能低到35 000例,也可能高达180万例。以预测观点来看,这么宽泛的幅度并不能说明任何问题。
为什么2009年的流感预测会失败?
在流感爆发的初期,流行病专家使用的统计方法并不会如前文所提到的那样简单,但是这些专家也可能会使用外推法,根据不可靠的数据进行预测。
一种名为基本传染数的变量是预测疾病蔓延最有用的变量之一,通常标记为R0,这一变量可以测量一个感染者将病毒传播给未感染者的可能数量。比如R0=4,指在没有采取疫苗注射和其他预防措施时,一个感染者在康复(或病亡)前会将病毒传播给4个人。
从理论上讲,在没有注射疫苗或采取隔离手段干预的情况下,任何一种Ro大于1的疾病最终都会使全人类染病。但有时Ro的数值会远大于1:西班牙流感的Ro值为3,水痘的Ro值为6,而麻疹的Ro值则高达15。作为人类文明史上致死率最高的疾病之一,疟疾的Ro值可能会达到3位数,目前,世界某些地区仍有10%的人死于疟疾。
问题是,可靠的Ro估值总是要等到该疾病在某个群体中迅速传播开来之后才能明确地计算出来,得有足够的时间仔细检查统计数据才行。所以,流行病学家不得已只好依据少量的早期数据来作外推预测。另外一个关键的疾病统计量是致死率,这一数据在疾病爆发初期也很难准确预测。这就好比“第二十二条军规”,会使人陷入两难境地,但是没有这一数量,就很难准确地预测某种疾病,要对这些未知量作出可靠预估,只有等到疫情结束。
表7–1?不同疾病的Ro值的中位数估值
疟疾 150
麻疹 15
天花 6
艾滋病 3.5
非典 3.5
1918年H1N1流感 3
1995年埃博拉病毒 1.8
2009年甲型H1N1病毒 1.5
季节性流感 1.3
而且,一种传染病爆发之初的数据经常被误报。例如,之前列举的美国艾滋病诊断病例的数据是在事件发生多年后才统计出来的。即使是时时更新的数据,对预测的帮助也不大。然而,如果依据科学家们当时实际使用的数据,预测结果会更糟糕。这是因为艾滋病出现之初,很多病人(甚至很多医生有时)对这种疾病所知甚少,使预测更加困难。许多带有艾滋病症状的奇怪并发症尚未查明病因或被误诊——艾滋病引发的机会性感染一直被误认为是这种疾病的主要死因。几年后,医生重新审阅旧的病例记录,才对艾滋病出现之初的发病率作出比较准确的估值。
不准确的数据也是导致2009年H1N1病毒预测失败的原因之一。那一年,墨西哥H1N1流感病毒的致死率出奇的高,而美国H1N1流感病毒的致死率却极低。尽管在某种程度上,这与两国医疗服务水平的差距有关,但主要差异还是统计假象。
致死率是相对简单的比率关系:由病死人数除以患病人数得出。但是,方程式中的两个数据都有较大的不确定性。一方面,墨西哥倾向于把其他形式的流感甚至其他疾病导致的死亡全都归因于H1N1。实验测试显示,被认定为H1N1致死的患者中有1/4的人表现出完全不同的病症。另一方面,H1N1流感病例数肯定存在少报、漏报的情况,也许报告值和实际值之间相差几个数量级。像墨西哥这样的发展中国家,既没有美国那种成熟的新闻报道体系,也没有“一有不适便去就医”的生活习惯。H1N1病毒进入美国之后的传播如此之快,可想而知,在墨西哥很有可能有几千甚至几万个轻微甲流病例没有上报政府。
事实上,H1N1病毒已经在墨西哥南部和中部地区传播了很久,数月后才引起医学界的关注(尤其是在医学专家开始忙于关注亚洲的禽流感之后)。2009年3月初,有报道称维拉克鲁斯市一个名叫洛里亚的小镇爆发呼吸系统疾病,当时镇上大部分人都已染病,但是墨西哥政府最初认为该病是由一种更为常见的流感病毒H3N2引起的。
与之形成鲜明对比的是,H1N1病毒一进入美国就成为媒体炒作的噱头,几乎没有什么病例可以逃过媒体记者的眼睛。有了如此高质量的报道,美国因H1N1病毒致死的数据想必是相当可靠的。即使后来将一些最糟糕案例的情况从报道中拿掉,但已经太迟了,它们已经引发了公众的极大恐慌。
自我实现预测与自我否定预测
在许多涉及人类活动预测的案例中,预测行为本身就会改变人的行为方式。有时,这些行为的改变也会对预测结果产生影响,要么使结果无效,要么令结果更加准确,在经济学领域就是如此。流感和其他传染疾病的预测也受到这一问题的两方面影响。
若预测会自动实现,这种情况便可称为自我实现预测,或自我实现预言。在一场多候选人的竞选中,如美国总统初选,随着政治民调的公布,这类预测情况就会出现。在这类竞选中,投票者会战略性地选择那些有可能获胜的候选人,这样就不会浪费自己的选票了,此时,一份公之于众的民意调查就会成为候选人成功与否的最佳风向标。举个例子,2012年艾奥瓦州共和党核心竞选的后期,美国有线电视新闻网(CNN)发布的一项民调显示,瑞克·桑德鲁的支持率奋起直追,拥有16%的投票率,而之前他的支持率只有10%。这份民调与众不同——在CNN公布这份民意调查之前,其他的调查均未显示桑德鲁有奋起直追之势。这份民调为桑德鲁营造了良好的媒体宣传氛围,一些选民开始放弃那些执政理念与其相似的候选人,如迈克·贝奇曼和瑞克·佩里,转而把选票投给桑德鲁。不久之后,桑德鲁赢得了艾奥瓦州的选举,而贝奇曼和佩里早就结束了竞选。
设计和娱乐等领域有许多更加微妙的例子。这些领域间的竞争主要是猜测消费者的喜好——但是,商家也可以通过巧妙的营销计划影响消费者的喜好。在时尚界,有种类似家庭手工业的机构会对下一季的流行色进行预测——通常要提前约一年作出预测,因为制衣生产线的调整需要时间。如果一些有影响力的设计师将棕色定为来年的流行色,并开始大量生产棕色的衣服,还让模特和名人穿着棕色服装,门店的橱窗和宣称小册子上也都主推棕色,那么,公众可能也会逐渐追随这一潮流。而公众的反应往往是购买和消费棕色的商品,不仅仅是口头表达一下内心偏好。于是,“预测”到流行色的设计师在人们眼里便如同圣人一般,但即便当初设计师没有选择棕色,而是选了白色或黑色或淡紫色,情况也都是一样的。
同样的,疾病和其他身体状况也有这种自我实现的特性。当媒体广泛地讨论某些疾病时,人们就更有可能辨识出这些疾病的症状,医生也更有可能对这些疾病做出诊断(或误诊)。近年来,最有代表性的案例就算孤独症了。若将被诊断患有孤独症的儿童数量和“孤独症”一词在美国报纸中出现的频率相比较,你会发现两者旗鼓相当,几乎分毫不差(见图7–3),近年来这两项数字明显都有所增加。人们并没有正确地看待孤独症这种疾病,这一疾病如今大有与流感平分秋色之势。
哈佛大学公共卫生学院的艾利克斯·欧祖诺夫博士告诉我:“这是一个很令人着迷的现象。在没有因果关系的疾病中,是新闻事件促使报告量不断增加。” 欧祖诺夫接受过纯粹的数学训练,在许多数据驱动的领域也是如鱼得水,但现在他正潜心研究如何在流感和其他传染性疾病中运用严格的统计分析。“我们一而再,再而三地发现,人们越担心某种特定情况,这种情况就越容易成为当下讨论的话题,相关报道就越接近真相。”
欧祖诺夫认为这一现象也许可以解释2009年H1N1病毒席卷美国时的迅速。这一疾病的传播速度确实很快,而有些人将原本可以忽略不计的病症也都一一报告给他们的医生,于是统计数据激增。
如果医生想要预测疾病在人群中的发病率,公开报道的病例数量会误导这一评估。这与犯罪报道的情况相类似:如果警察报告某一居民区的偷盗案件数量增加,是因为警察变得更警惕了,抓到了之前遗漏的罪犯,还是因为这类案件的报道更随意了呢?或者因为这一居民区变得更危险?任何想在流感发生初期做出预测的人都会碰到这类让人感到困惑的问题。
与自我实现预测相反的是自我否定预测,自我否定预测是指预测会自我破坏。越来越普及的GPS就是一个有趣的例子。曼哈顿有两条南北走向的主干道,一条是西部高速公路,靠近哈德逊河;另一条是罗斯福路,位于曼哈顿东部。根据目的地的位置,司机也许没有必须走哪条路的强烈愿望。然而,GPS导航系统会依据车流量预测哪条路通行的时间更短,然后用语音提示你应该选的道路。可是,当很多车主都用同一款导航仪时,问题就出现了,大家都会选同一条路,于是道路突然会被车流塞满,畅通的路反而变得拥堵。理论和现实的双重证据表明,在纽约、波士顿和伦敦都出现了类似的问题,这些导航系统的作用有时只会适得其反。
因为流感预测的目标从某种程度上来说是为了提高公众对这种疾病的意识,进而改变其行为习惯,因此这种自我破坏的特性也影响了流感预测的准确性。最有效的流感预测很可能就是无法修成正果的预测,因为这样的预测会促使人们做出更有利于健康的选择。
预测模型越简单越好,还是越复杂越好?
芬兰科学家汉娜·库克将构建统计或预测模型比作绘制地图。绘图需要足够多的细节才能真实地展现基本景观,于是,制图者不愿漏掉大城市、主要河流、山脉,或是重要的高速公路。然而,太多细节会让旅行者晕头转向,反而迷了路。正如本书前文中提到的那样,这些问题不是纯粹的审美问题。过于复杂的模型可能会将噪声拟合进来,无法成功地复制内在结构,使预测失败。
但是,多少细节才算太多(或是太少)呢?地图绘制技术需要穷尽一生才能掌握,这项工作是艺术和科学的有机结合。将模型的建立描述成艺术形式也许有些离谱,但这项工作确实需要作很多判断。
然而,从理想化的角度来看,像库克提到的那些问题也可以凭经验回答。这样的模型有效吗?如果没有,就需要寻求其他的解决路径。在流行病学界,医生所用的传统模型相当简单,效果也没有那么理想。
传染疾病最基本的数学处理模型就是SIR模型(见图7–4)。该模型形成于1927年,假定某人在某时可能会处于以下3种状态中的一种:S 代表易受疾病传染,I代表被感染,R代表康复。像流感这类不算严重的疾病,从一种状态转变到另一种状态完全是单向的:从S到I,再到R。在这一模型中,疫苗基本上充当了捷径的角色,可以让某人直接从S到R,免去生病的过程。这个模型背后的数学过程是相对直接的,(将题目)概括成不同的方程式,在电脑上经过几秒钟的运算就可以得出结果。
问题是,这个模型要有很多假设才可以有效运转,而其中有些假设在实践中根本无法实现。尤其是这个模型假设在某个特定人群中,每个人的行为方式都是一样的。他们同样易受传染,都可能接种疫苗,彼此随意接触;他们中并没有种族、性别、年龄、宗教信仰、性取向以及教派的区别;每个人的行为方式基本上没有什么区别。
在那些通过性行为传播的疾病中,最容易看出这些假设的缺陷。