书城经济一本书读懂大数据
21532200000009

第9章 看看大数据的价值在哪里(3)

几年前,世界爆发金融危机时,意大利一家大银行的CEO做出了一个让很多人都觉得不符合常规的决定。考虑到经济的疲软以及未来欧元危机的前景,很多人认为他应该会退出意大利市场,可是他最终决定留在意大利挺过任何潜在的危机。做决定前,这位CEO让手下的智囊团预测出可能发生的一系列不利情况,计算出这些情况对于公司意味着什么。但是最终,他还是根据价值判断做出了决定。他的银行已经在意大利经营几十年,他不想让意大利人觉得他的银行是一个不可以共患难的朋友,他也想让银行里的员工觉得时局艰难时公司不会转移,即便这样做会有一些短期的成本损失。他在做决定时没有忘记参考数据分析,但最终,他遵循了另外一条思路。结果表明,这条思路无疑是正确的。

商业有赖于信任,信任是带有感情的互惠行为。在艰难时期仍然坚守诚信的公司和人会赢得别人的好感和自尊,即便这些不易通过数据来衡量也是极有价值的。

这个故事里面暗藏了大数据分析的优点和局限。在当今这一历史性时刻,用于数据收集的计算机正调节着我们的生活。在这个世界,数据可以用于帮助我们理解令人难以置信的复杂情况,可以帮助我们弥补自己直觉上的过度自信,帮助我们减轻因为情感、观念、经验等主观因素导致的对事实的扭曲。但是,还有很多事大数据是无能为力的。比如,大数据对准确描述社会活动是无能为力的。人的大脑在数学方面很差,但是在社会认知上很优秀。我们总能从一个人面部表情的微弱变化捕捉到其很细微的情绪,从一个微小的动作判断其心理状态。同时,我们很多时候需要用情感来对一些事物进行价值判断。这些方面,大数据并不擅长。大数据分析本身是由计算机来进行的,它善于衡量社会交往的数量而非质量。比如,一个社交网络专家或许可以通过大数据分析绘制出你在平时80%的时间里与常见的10名同事或朋友的交往情况,但他没办法通过大数据分析捕捉到你对在某个很遥远的地方生活的近些年从来没有见面的前女友的复杂情感。因此,在做有关社会关系的决策时,要想用办公桌上的粗糙机器替代神奇大脑的想法是很浅薄和愚蠢的。

大数据在解决很多领域的重大问题方面也有局限。一个公司可以做一个随机对照试验来判断到底是哪一封促销邮件勾起了用户的购买欲,但一个政府不能用同样的办法来刺激萧条的经济,因为没有另外一个政府作对照。怎样能够刺激经济增长,这个问题经济学家和政府官员都很关心,也引发过很多争论。关于这个问题,我们有堆积如山的数据可用,但是没有哪位参与争论的人会被数据说服。

而且,大数据分析更偏向分析潮流和趋势,对一些突出的、特异的个例则毫无办法。当大量个体对某种文化产品迅速产生兴趣时,大数据分析可以敏锐地侦测到这种趋势,但其中一些可能非常杰出的东西从一开始就被数据摒弃了,因为它们的特异之处并不为人所知。

另外,数据本身也有局限。纽约大学教授丽莎·吉特曼有一本学术著作名为《原始数据只是一种修辞》,书中指出:数据从来都不可能是原始存在的,因为它不是自然的产物,而是依照一个人的倾向和价值观念而被构建出来的。我们最初定下的采集数据的办法已经决定数据将以何种面貌呈现出来。数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。

数据会掩盖价值,没有任何数据是原始的,往往是根据人的倾向和价值观构建起来的。最终的结果看起来很无私,但实际上从构建到演绎的整个过程一直伴随着价值选择。

这并不是说大数据就没什么了不起的,而是说数据和其他工具一样,在一些方面有价值,而在另一方面则存在着遗憾。

旧数据也会有新用途

企业、政府乃至个人都积累了不少各方面的数据,这些数据有些是几十年前的,有的甚至有数百年历史。那么这些数据除了偶尔被历史学家们考证使用外,还能派上其他用场吗?答案是肯定的。

人们在看待数据时,常常会犯一个常见的错误:他们喜欢新的数据,认为新的数据更及时、更全面,而那些陈旧的数据似乎没什么用处。而事实远非如此。很多旧的大数据里,也蕴含着不少我们没有发觉的金矿。这些数据被整理分析后,一样能得到非常有用的信息。

美国著名摄影师和出版人里克·斯莫兰是一个有趣的人,他做了许多跟大数据有关的摄影项目,其中有个项目叫“大数据人类面孔”。这个项目启动的一个为期8天的“测量我们的世界”活动,邀请全球各地的人们通过智能手机实时地分享和对比他们的生活。其中,有一张照片是里克·斯莫兰和一位计算机科学家、一位心脏病学家兼计算生物学家站在一堆废弃的心电图数据纸带中。这个3人团队创建了一个全新的计算机模型,它可以用来分析那些曾经被丢弃的心电图数据,从中发现被忽视的心脏疾病复发信号,并能大大改进今天的心脏病风险筛查技术。

对于很多人来说,那些已经过时的心电图数据是毫无价值的,所以那些数据纸带完全就是一堆废纸。可是,聪明的科学家们就是对那些废纸里的数据进行分析才得到振奋人心的科研成果的。

不仅是科研方面需要陈旧的数据,其他方面一样需要。比如曾有这么一个例子:一家石油勘探公司有一个新系统可以提供尼日利亚的3D地质数据,但是该公司没有太多的文件数据库以供这个系统来进行深度分析。一位存储管理员记得某处存有大量的旧图片,然后他通过一个商业智能分析工具来分析这些数据是否可以用于新系统。结果这家石油勘探公司得以将数十年的旧数据导入新系统。这些旧数据与新的材料交叉分析,帮助这家公司取得了几项重大发现。

以上是科研和商业方面的应用。而在政府服务方面,历史上就有一个很好的反面例子。

朝鲜战争爆发前8天,美国民间咨询公司兰德公司通过秘密渠道告知美国对华政策研究室,他们投入大量人力和资金研究了一个课题——“如果美国出兵朝鲜,中国的态度将会怎样?”而且第一个研究成果已经出来,虽然结论只有一句话,却索价500万美元。当时美国对华政策研究室认为这家公司是疯了,对他们一笑置之。

但是几年后,在朝鲜战场上,当美军被中国人民志愿军和朝鲜军队打得丢盔卸甲、狼狈不堪时,美国国会开始辩论“出兵朝鲜是否真有必要”的问题,在野党为了在国会上辩论言之有理,急忙用280万美元的价格买下了该咨询公司这份已经过时的研究成果。研究的结论只有一句话:“中国将出兵朝鲜。”但是,在这一句话结论后附有长达600页的分析报告,详尽地分析了中国的国情,以充分的证据表明中国不会坐视朝鲜的危机而不救,必将出兵并置美军于进退两难的境地。并且,这家咨询公司断定:一旦中国出兵,美国将以不光彩的姿态主动退出这场战争。

从朝鲜战场回来的美军总司令麦克阿瑟将军得知这个研究之后,感慨道:“我们最大的失策是怀疑咨询公司的价值,舍不得为一条科学的结论付出不到一架战斗机的代价,结果是我们在朝鲜战场上付出了830亿美元和10万多名士兵的生命。”

看过这些例子,还有谁会觉得旧数据是没用的垃圾呢?有的数据可能以某一种方式来分析时是无用的,而通过另一种分析方式就能得出有价值的信息;有的数据现在可能没什么分析价值,但这不代表它以后也不会有分析价值。大数据时代,没有不能分析的数据,没有毫无价值的数据。无论是陈旧的大数据还是新的大数据,都有派上用场的地方。