书城经济一本书读懂大数据
21532200000024

第24章 有趣的大数据运用(2)

如******决定在社交新闻网站上回答问题,当时很多人弄不明白原因。******发现,很大一部分目标选民在社交新闻网站上。通过分析发现,在竞选双方拉锯僵持的“摇摆州”的电话参选动员上,来自“摇摆州”的******竞选志愿者,他们打给目标选民请求支持的电话效果优于非“摇摆州”志愿者打去的电话,助选策略随之调整。越来越多的选民因为******与他们心意相通的亲密接触,而果断地选择他作为新一届领导人。

******团队对社交网络等信息平台的运用也很成功。******团队运用脸谱社交系统开展了大规模的投票动员活动。在竞选冲刺阶段,下载一款应用的用户会收到多条消息,其中包含他们一些好友的照片,而这些好友来自“摇摆州”。这些用户接到通知,只要点击按钮,就可以呼吁这些好友作为选民采取行动支持******。这一举措效果很好,由于呼吁来自熟人,大约20%收到脸谱请求的“摇摆州”选民做出了响应。脸谱准确、快速的推荐算法,为******连任助了一臂之力。

******利用大数据赢得对手,这是大数据在实际中运用的经典案例,不可否认,大数据不仅仅运用于企业和科学研究中,它还可以运用到实际生活中,并产生巨大的作用。

大数据让罪犯无处可逃

美国一家媒体在北京时间2014年6月2日报道,美国国家安全局(简称NSA)并不仅仅对通话记录这样的情报感兴趣。“棱镜门”揭秘者爱德华·斯诺登泄露的文件显示,NSA使用面部识别软件扫描互联网上的大量人像,并与调查数据相匹配。据说,在巴基斯坦发现了本·****就是运用了这一项技术。

例如,NSA可以此判断一张照片或一段视频里的嫌疑人是否有合法护照,或者线人是否曾提供与之相关的信息。它甚至可以辨认出有无胡须等这种细微的差别,关联照片和卫星信息以确认某人位置。据泄露文件显示,自2011年起,NSA每天从百万张图片中获得约5.5万张面部识别信息图片。

美国国家安全局无论是对全球的电话窃听还是人面部扫描对比,他们依赖的都是大数据。那么,这是如何做到的呢?

破案的神探都有一个共同的特点,就是有一个具备强大分析能力的大脑。他们能够观察到细小的证据,并把这些证据关联,分析出犯罪事实。一个比较残酷的现实是,神探几十年出一位,罪犯却天天在行动。幸运的是,最新的大数据分析工具正在将每一位普通警员都变成神探,甚至能预测犯罪。最新的案例显示,大数据在警务中的应用已经收到了良好的效果。

作为美国警界最早的大数据预测分析试点单位,圣克鲁斯警察局通过城市大数据预测犯罪地点和时间。大数据分析可以帮助警察分析历史案件,发现犯罪趋势和犯罪模式,找出共同点和相关性,通过分析城市数据源和社交网络数据,甚至能预测犯罪。

过去需要几天、几周甚至几个月的数据资料分析,在最新的警用大数据分析系统中几个小时内就能完成,从而大大提高了警察办案的效率。

警方使用的大数据分析工具,可以帮助分析人员采集和分析文本、图像以及其他信息,还可以进行文本提取、案例组织等工作。此外,它的协同工具还可以避免重复的工作以提高效率。它的联合查询和模糊查询的功能可以让用户在即便拼错单词的情况下,以一个查询语句访问不同的数据库。

据国外媒体报道,美国孟菲斯市警察局采用Blue CRUSH预测型分析系统后,过去5年暴力犯罪率大幅下降。美国马里兰州和宾夕法尼亚州曾采用了一种能极大降低凶杀犯罪率的犯罪预测软件,不但能预测罪犯假释或者缓刑期间的犯罪可能性,还能成为法庭假释条款和审判的参考依据。例如,用软件分析发现14岁第一次杀人比30岁第一次杀人的罪犯更容易再次行凶,因而调整了假释条款。

大数据在查案办案方面将起到非常重要的作用。一个能够对犯罪案件相关大数据进行数据分析的人,便是未来的“福尔摩斯”。

每个人都知道,一个人在犯罪前,无论大脑里有过多少有关犯罪的预谋都不构成犯罪事实。而在斯皮尔伯格导演的电影《少数派报告》里描述了这么一个时代:随着科技的高度发展,人类发明了能侦察每个人的脑电波的机器人“先知”。“先知”能侦察出人的犯罪企图,所以罪犯在犯罪之前就已经被犯罪预防组织的警察逮捕并获刑。这一点与大数据时代的预防犯罪有共通之处。

这不禁让我们思考:在大数据时代,究竟怎样才是真正的犯罪?

IBM的一则广告片讲述数据分析如何帮助警察在罪犯作案前赶到现场预防犯罪,可以说电影《少数派报告》的现实版正在上演。作为警用大数据市场的重要厂商,IBM推出SPSS预测分析软件以及相关数据库应用软件以提供数据整合、分析,以及数据可视化功能。通过这些软件,可以进行数据集中管理,帮助警方不同部门协同工作,并可以帮助发现犯罪线索。在美国南卡罗来纳州的查尔斯顿,警方利用IBM的数据分析工具帮助当地的400多名警察更加准确地进行犯罪模式的分析。根据IBM的说法,警方可以利用分析预测工具进行警力调配,发现犯罪热点地区提前预防犯罪发生,从而降低当地的发案率。在美国,从纽约到洛杉矶有越来越多的警察局在计划或者开始部署大数据分析工具。很多警察局认为,大数据分析工具从长期来说可以提升办案效率,优化警力资源分配,从而提高社会和公众安全水平。

在这两个案例里,警察还是在遵照现实生活中的逻辑:没有行动的犯罪不能定罪。但是,如果大数据分析到非常精准的程度,甚至可以算出某人在某个时间犯罪的概率有多大,事情会不会发生变化呢?比如大数据分析显示,某个人某天深夜可能在家谋杀他的妻子,可能性高达99%。警察该如何去预防犯罪呢?如果他们相信大数据分析的结果,他们就要高度监视这个人或者在危险将要发生的时候破门而入,这都是有风险的。前者是没有证据而假定一个人会犯罪而去监视,侵犯了个人隐私;后者则难度很大,破门而入的时机早了,犯罪还没有任何迹象,则是警察侵犯了个人安全,如果时机晚了,犯罪已经发生。所以,利用大数据阻止犯罪的难度很大。在未来,大数据只能起到安全预警的作用。比如,警察可以提前通知妻子,让其防范丈夫,警察也可以随时做好准备去保护这位妻子和缉拿犯罪嫌疑人。大数据让罪犯无处可逃,但从某种程度上说,它又只能作为警察的一个工具,能在预防、阻止犯罪和锁定、缉拿罪犯中起到巨大的作用。

大数据造就美味机器

我们阐述了什么是大数据,以及大数据的巨大作用。在这里有这样一个问题:“大数据能吃吗?”美味机器研发团队告诉你:

“是的,能吃,而且味道相当不错。”这当然不是说大数据能吃,而是指它们可以利用数学、化学和大数据分析技术,制作出一些前所未有而又不同寻常的食谱。

通常我们为了解决一个问题会进行以下步骤:首先,理解我们打算解决的问题到底是什么,难度在哪里,怎样才算解决了;然后,从这个问题的难点入手,尽可能多地学习相关知识,从而积累起专门的知识,并在这套知识的武装下生成一些新的想法,甚至把不同类型的想法结合起来;接下来,就是从这一大堆想法中挑选出最具创意的,最后实现我们的想法。

研发团队也是这么考虑的,他们构建了一套算法,根据以上这个解决问题的步骤建立了模型。尽管这些步骤中有很多以前就曾经由计算机执行过,但美味机器研发团队的过人之处在于他们找到了量化一份食谱的创造性办法,并且能把所有不同的部分结合在一起。

拉夫·瓦什内领导美味机器研发团队开发这种新型食谱生成系统,他一直都用这套系统生成的食谱来做饭,而且他表示这套他们自己创造的食谱中有一些菜确实非常好吃,比如奶油烤肯尼亚球芽甘蓝、开曼车前草甜点和瑞士与泰国混合式芦笋乳蛋饼。

还有一些菜谱是研发团队与合作伙伴烹饪教育学院合作创造的,那可就是世界级的食谱了,比如西班牙扁桃牛角面包和厄瓜多尔草莓甜点。

那么“计算机大厨”们是怎么通过大数据分析来创造美味的呢?

首先,启动软件时,使用者会被要求选定一种关键食材,以及使用者想要制作哪个地区的菜系,然后决定使用者感兴趣的餐食类型。这是第一步,相当于告诉计算机“你要解决的问题是什么”。

其次,这是最重要的一步。在这一步里,大数据分析起着最重要的作用。计算机会调动电脑里存储的好几百万份不同食谱的文本数据,研究者们利用自然语言处理算法扫描并分析这些数据。利用这些数据,他们将已经成文的食谱转化为关系网,包括不同食材的用量和将这些食材做成食物的过程;他们扫描维基百科,了解在各个地区菜系中通常会用到哪些食材;他们考察调味品的说明书,了解不同调味品中含有哪些分子,并获取了这些分子的化学结构方面的信息;他们还收录了人们对70种不同化学成分的“好感度”评分……最终,研究者们积累了巨量计算机可读的知识体系,其中包括人类的口味偏好、地区食谱和这些食谱化学构成方面的信息。程序就这样做好了做餐的准备。

第三步,软件从某种菜系的传统食谱开始,产生出几百万条符合用户要求的新食谱。这些食谱不是随机产生的,而是遵循着“食物搭配律”的经验法则生成的。食物搭配律的主要内容是在食谱中能够良好搭配的食材有着相同的呈味分子。全新食谱是依靠“异化”现有食谱中的食材,然后将其与其他食谱融合产生各种各样前所未见的混合食谱的方式得来的。这种算法被称为遗传算法,是在模仿生物遗传变化的过程。

也许你会问:“一下子产生了几百万种菜谱,肯定有很多是非常失败的,要么口感不好,要么味道不好。怎么选出味道好的呢?总不能把这几百万道菜都做一遍吧?”说得对,计算机生成的几百万种食谱确实没法做成菜一一验证。就算可以验证,愿意品尝几百万种奇特乃至奇葩的新食谱的志愿者估计也很难找,比如突然端上来一道名为“五花肉炒臭豆腐”的菜,估计会让很多人没有品尝的勇气。幸好这点研发人员早就想到了。研发人员的对策是:不做出菜,直接让软件自动化处理。那么,到底是怎么自动处理的呢?毕竟,软件又不会有味觉,怎么能把不好吃的菜给剔除掉呢?

美味机器研发人员希望他们的食谱能做到非常具有创造性,同时实现新颖和美味两个标准。他们是这么考虑的:每个人对新鲜食物的接受能力都不一样,而且由于地区和文化差异,每个人对食物的偏好也不一样。越是和你以往吃过的食物相似的食谱,就越是不会让就餐者感到新奇;越是那种稀奇古怪想不到的食谱,就越能让就餐者觉得出乎意料。出于这种考虑,他们根据一个食谱能够多大程度上让就餐者感到诧异来衡量这份食谱的新颖程度。

然后要考虑的就是味道了,味道的形成本身是非常复杂的,我们的舌头能够品尝出几种基本的味道:甜、咸、酸、苦和鲜。

然而,我们对食物的体验还受到很多其他因素的影响,比如食物是不是温热的,是奶香味还是糖一样的甜腻味,口感粗涩还是顺滑的,是很耐嚼还是入口即化等。另外还有其他的一些因素,比如咬它时它发出的声音、食者的饥饿程度、这种味道所勾起的记忆,等等。

研究者最后从神经美食学领域的研究工作中得出了强有力的论点:气味是味觉的主要构成部分。因此,只需考虑一盘菜的气味即可。这听起来似乎很荒谬,气味是鼻子闻到的而味道是舌头尝到的,这完全不一样。不过,我们不妨想想自已感冒鼻塞后吃东西的场景,那时我们的舌头是正常工作的,可是我们会觉得食物没什么味道,因为闻不到气味。

那么软件怎么知道一盘菜闻起来香不香呢?这个问题的答案要到化学中去找。软件会考察一份食谱中所有不同的呈味分子,查询它们的化学性质——这个过程会用到很多技术名词,诸如重原子数、复杂度、可旋键数量以及氢键受体数量。通过将这些化学性质与其他70种气味分子做比较,研究者可以预测一盘菜的气味是香气四溢还是恶臭扑鼻。最后他们在计算机里把各种不同分子的气味混合起来,算出每种食物的“香度”。

最终,软件产生了一系列食谱,并以3个标准排序:新颖程度、气味怡人度和口味搭配。到这里,一份菜谱就被挑选出来了。

大数据给我们带来的新鲜感是不可想象的,也许,在不久的将来,我们走进一家美食店,会看到计算机正在自己生成食谱并根据食谱来烹饪食物。