事实上,美国国家气象局的工作通常得不到人们的认可,面临着来自私有行业的严峻竞争,这种竞争是在不公平的运动场中进行的。美国国家气象局的模型数据免费提供给所有需要它的人,而不是采取世界上其他地区的大多数相应机构的做法(其他大部分国家的气象局会收取预测许可费和使用费)。这样一来,像美国AccuWeather气象预测公司和气象频道(TWC)这样的私有公司才能够顺带发展并销售自己的产品。大量的受众会从这些私有公司中的某一家获取预测信息,气象频道网站Weather.com的浏览量比政府气象预测网站Weather.gov的浏览量多出近10倍。
我通常很赞同自由市场的竞争,或是国有企业和私有企业之间的竞争。棒球运动迅猛发展,得益于棒球预测更好地结合了球探和数据怪才在预测潜力球员发展前景时的见解,这都是竞争带来的结果。
然而,在棒球运动预测领域中,衡量竞争力的标准十分明确:你赢了几场比赛?在气象预报过程中,问题则有些复杂,国有和私有预测部门各自会有不同的衡量标准。
什么样的预测才算是好预测?
美国气象频道最重要的科学家兼副总裁布鲁斯·罗斯博士为人谦和,他告诉我:“没有人碰到过专业的研究专家看气象频道,但其实他们中有很多人都是偷偷看的。”罗斯并不认同气象频道的预测比政府部门发布的预测更精确,他只是说,二者的预测存在差异,是为各自的特定受众群提供的。
罗斯还说道:“通常人们不会根据这些模型对实际天气的预测质量衡量气象预测结果。真正重要的是,纽约市的天气是25毫米的降雨,而不是254毫米的降雪。因为对于普通受众来说,这有巨大的差别,而科学家们对此却不以为然。”
的确,罗斯大部分的时间都致力于研究受众如何理解自己的预测这类问题,这些问题高度实用,甚至还有些陈腐。比如,如何将第一手的天气数据转化为日常用语:严寒到底有多冷?当天下暴雨的概率有多大?少云和多云之间的界限该如何划定?这是气象频道需要解决的问题,因为该频道发布过太多预测,决意在措辞上有些变通,所以现在应该建立一些解决问题的正式规则。
有时,让预测适应受众的需要,这种做法显得滑稽可笑。多年来,气象频道一直用绿色阴影在雷达地图上标注降雨(偶尔也会用表示大暴雨的黄色和红色标记)。2001年,销售部的一个员工想到一个新点子:用蓝色代替绿色标注降雨,毕竟这才是人们眼中水的颜色。结果,气象频道马上被气愤的——偶尔也有惊慌的——受众来电围攻,人们误以为蓝色的标注代表的是至今未知的降雨(血浆暴雨或是放射性尘埃)。罗斯博士对我说:“人们的反应就像核爆炸!有人还写信来说道,‘这么多年你一直告诉我们雨的标识是绿色的,现在怎么又变成蓝色的了?你们疯了吗?’”
但是,气象频道在气象学方面的态度也很认真。至少在理论上,我们有理由相信它们能够做出优于政府部门的预测,毕竟气象频道能够以政府部门所有的原始数据作为起点,并把它们能够贡献的价值毫无保留地投入进去。
可问题是,什么才是“更好的”预测呢?我简单地将其定义为更准确的预测,但也有一些不同的声音,这些观点也都十分中肯。
1993年,俄勒冈州立大学的气象学家艾伦·墨菲发表了一篇颇具影响力的文章,他在文中提出假设,在气象预报群体中,有3种常见的关于预测质量的定义。墨菲并没有特意指出哪一种定义更好,只是试图促使众人对这几种定义进行更为开放、更为坦诚的交流。这些定义的不同版本几乎可以在任何可预测或可预言的领域中应用。
墨菲提出,衡量预测的一种途径——或许也是最显而易见的途径——就是通过他所说的“质量”,但何种质量才可被认定为准确呢?“质量”是指预测与实际天气相符吗?
第二种途径就是墨菲所称的“一致性”,但我以为应该是“诚实性”。不论预测得多么准确,这个预测是预测者当时的巅峰之作吗?这个预测是否反映了预测者的最佳判断呢?公之于众之前,这个预测是否作了某种程度的修饰呢?
墨菲最后写道,预测是有经济价值的,判断的依据就是,预测是否有助于公众或政治决策者做出更好的决定。
墨菲对准确和诚实所做的区分很细微,也相当重要。当我做出错误的预测时,我总会问自己,鉴于我所了解到的情况,这是不是我本该做出的最好预测呢?有时,我给出的答案是肯定的,因为我的思考过程是合理的,我已经进行了研究,建立了良好的模型,仔细考量了其中的不确定性。当然,有时我也会发现所进行的预测里有自己不喜欢的地方。或许我过于匆忙地搁置了一个关键证据,或许我高估了问题的可预测性,或许我在某些地方有所偏倚,或许根本就是动机不纯。
我并不是建议你每次预测错误时都要狠狠地责备自己,相反的,当你发现事情超出自己的瞬时掌控时,依旧能保持平和的心态,这才是做出正确预测的前提。但仍要留出空间问问自己,当时作决定时,自己的大脑里到底在想什么。
长远来看,当我们动机正确时,墨菲提出的准确性和诚实性就会汇于一点。但有时我们却做不到动机正确,比如,“麦克劳夫伦讨论小组”就肯定通不过墨菲的“诚实性预测”测试,他们似乎更关注自己在电视上表现得是否聪明,而不关注是否做出了准确的预测。他们本可以表现得很理性,但如果想要引起带有政党倾向的观众的注意,或是想要再次获邀参加节目,他们就会蓄意做出错误的预测。
墨菲的第三个途径是,预测的经济价值会使问题更加复杂化。比如,有人很同情罗斯博士的处境。如果预测一个城市的气温接近冰点,其降水形式可能是雨、冰雹或是雪,这真的值得大家给予更多关注,因为这几种情况都会对早上出行和居民安全造成不同的影响。然而,这更应该是气象频道集中资源、下大力气处理的问题。没有必要怀疑预测的准确性和诚实性。新闻报道力求保证其文章内容的准确性和诚实性,但它们仍然需要决定哪些文章可以放在头版头条。气象频道也要做出类似决定,经济因素是促使其这么做的合理理由。
然而,有时候,对于准确性、诚实性和经济价值的追求也会陷入更加激烈的斗争,而此时商业成功的重要性就要超过准确性了。
商业竞争如何使预测变得更糟糕?
任何气象预测都必须通过两项基本测试,以表明其优势所在:
1.它们必须做到气象学家所说的持续性,甚至做得更好。所谓持续性,是指假定明天(或者第二天)的天气同今天一样。
2.它们还要突破气候学规律。气候学规律是指长期以来特定区域、特定日期历史平均状况的综合。
早在理查德森、洛伦兹和蓝火计算机出现以前,我们的祖先就已经在使用这些方法了,如果我们无法改进这些方法,那么再昂贵的计算机也做不出出色的预测。
我们拥有大量有关过去气象预报结果的数据,至少可以追溯到第二次世界大战时期。比如,我可以登录气象网站Wunderground.com,查询到1978年1月13日(我的出生日期)早晨7点,密歇根首府兰辛的天气状况:气温约8摄氏度,小雪,东北风。但是,几乎没有人会劳神费心地收集过去的气象预报。有人料到那天早上兰辛会下雪吗?你可能会到互联网上查找这样的信息,但却查不到。
2002年,一位名叫艾瑞克·弗娄尔的企业家改变了这种状况,他是俄亥俄州立大学计算机科学专业的毕业生,当时效力于美国第二大长途电话运营商美国世界通信公司(MCI)。最初只是为了比较政府预测模型和私有公司预测模型哪个更准确,他才开始收集国家气象局、气象频道和AccuWeather公司发布的有关气象预报的数据。起初,这个大规模的科学实验的项目多半是为了满足弗娄尔的个人求知欲,可随后迅速发展为有利可图的商机。人们创建了ForecastWatch.com网站,在很大程度上按照客户的要求对数据进行重新包装,其客户群的涵盖面很广,从能源商人(对这些人来说,气温发生的细微变化能转变为数万美元)到学者不一而足。
弗娄尔发现,没有一家气象预测机构是明显完胜的赢家。他收集的数据表明,AccuWeather网站在降雨量预测方面的误差最小,气象频道在温度预测方面略胜一筹,而政府预测在各个方面都稳定出众,总之,它们做得都非常好。
但是,这些模型的预测时间跨度越长,其预测准确性就越低(见图4–6)。比如,提前8天的预测几乎没有任何技术含量,这种预测打破了稳定性,但并没有突破气候学规律。如果是提前9天或更多时间进行预测,那么这些专业的预测得出的结果就会比按照气候学规律推测的结果还要糟糕。
罗夫特告诉我,混沌理论是大势所趋,大气的动态内存会自我清除。尽管下面这个类比有些不准确,但对于理解这一原理还是有所帮助的。人们把大气想象成纳斯卡赛车的椭圆车道,围绕轨道行驶的不同车辆就代表不同的天气系统。比赛开始的十几圈,了解赛车的出发顺序能使我们更好地预测出它们经过的顺序。期间可能出现碰撞、急停、引擎故障等我们无法解释的状况,所以我们的预测不会完美无瑕,但总会比随便猜测的准确一些。很快的,速度较快的汽车就会领先速度较慢的车若干圈,不久,赛道上的顺序就完全被打乱了。也许与排位第二的赛车并驾齐驱的,是排位第16的赛车(即将落下一圈)和排位第20的赛车(已经落下一圈,眼看又要落下第二圈)。比赛最初的状态几乎没有什么参考价值,同样的,一旦大气有了足够的循环时间,天气模式与其最初的状态就不再相似,这些模型也就没有什么用处了。
弗娄尔的发现仍然引起了一些令人不安的问题。预报发布的七八天之后,如果计算机模型的预测结果被证明是零技术含量,则会是另外一种情况。这些模型得到的结果竟然还不如普通人坐在家里查阅长期天气平均状况表得到的结果准确,怎么会这样?也许是因为计算机程序对天气系统中自然出现的反馈过于敏感,于是开始自我反馈。这不仅说明噪声中不再有信号,还说明噪声正在渐渐增强。
还有一个更大的问题,那就是如果提前过长时间做出的预测不准确,那气象频道(预测近10天的天气情况)和AccuWeather网站(将预测时间提前到15天)这样的公司为何还要继续发布预测呢?罗斯博士认为,因为这样做不会造成任何伤害,即使是单纯基于气候学的预测,对他们的用户而言也是有点用处的。
对于商业性的气象预报来说,统计学上的准确度没必要斤斤计较。在受众眼中,只有感知上的准确度才是有价值的。
比如,以赢利为目的的气象预报公司很少确切地预测下雨的概率为50%,这个概率对用户来说似乎显得空洞又模糊。相反,它们会投掷硬币且将数值四舍五入,得到60%或者40%的降水概率,尽管这样做会使预测结果更加不准确、不诚实。
弗娄尔还发现预测公司竟然明目张胆地篡改数字,这可能是气象预报行业里公开的秘密了。大多数商业性气象预报都是有偏向性的,可能是故意为之。这些预测公司尤其偏向于预测更多的降水量(但实际上降水并没有那么多),气象学家称之为“降水偏向”。从政府部门得到越多的原始数据,客户面对的气象预报就越多,这种偏向性就会越严重。预测就是这样通过减少准确性来“增加价值”的。
天气预报说降水概率为60%,你出门会带伞吗?