第3章引言(1)

从大数据到大产品

在本世纪第二个十年的门口，空气里的的确确弥漫着一些奇妙的味道——新旧之交，技术嬗变，厚积薄发。我们对产品的传统认知、那些老产品经理们的经验、传统消费电子产品界的面貌，即将迎来怎样的暴风骤雨？

“只要站在风口，猪也能飞起来。”自从雷军在他的微博上把这句话贴出来，风口和猪瞬间走红。

雷军说这句话的由头是他40岁那年，参加了一个小圈子聚会，也不知道是哪一幅场景或者某一句话的刺激，突然就有了感悟：“我领悟到，人是不能推着石头往山上走的，这样会很累，而且会被山上随时滚落的石头给打下去。要做的是，先爬到山顶，随便踢块石头下去。”

顺势而为，听起来相当容易。但又有几个人真能做到，真能做好？“顺”，相对简单，难的是“势”和“为”。

现在，回到2010年，去找一找“势”和“为”的蛛丝马迹。当时还真的发生了几件看似很小却意义重大的事情。在相当大的程度上，这几件事决定了包括雷军在内的很多当下的“大明星”的命运，甚至引领了一个新时代的来临——“大产品”横行的时代。

2010年4月6日，雷军终于下了个决心。他对苹果软件、硬件、服务一体的垂直整合模式着迷已久，他觉得是时候把一个“铁人三项”的公司推到台前了。在北京中关村的银谷大厦里，小米公司成立，自诞生起，这家公司用的就是纯正的软件、硬件、服务一体化垂直整合路数，并且还把互联网的那套做法彻底融入了手机工业。但问题的关键是，雷军怎么知道“是时候”的？

2010年6月29日，新一代硅谷狂人埃隆·马斯克终于将他的特斯拉汽车公司带到了纳斯达克的聚光灯下。这一天是特斯拉公司成立7年以来最重要的一天。其实，就像埃隆·马斯克创建的另一家更梦幻的公司——生产制造小型运载火箭产品的SpaceX（航天探索技术公司）一样，特斯拉的发展道路也并非一帆风顺，但即使是在最困难的时期，埃隆·马斯克仍然坚持着“做全世界最好的汽车”的初心。上市没几天，特斯拉挖来了苹果的零售店副总裁乔治·布兰肯西普负责其零售战略，乔治是苹果体验店的主要策划人，被业界视为“从根本上改变了电子产品的消费方式”的人，也正是这个人，用了不到两年时间，就把特斯拉本就非常擅长的圈子口碑营销，进行了全球范围内的大面积复制。但问题的关键是，埃隆·马斯克是凭什么坚持初心的？

2010年8月12日，乐视网董事长贾跃亭在深圳证券交易所敲响了开市钟，乐视网登陆创业板，并成为中国A股市场上的首家网络视频公司。这成为贾跃亭后来所做的“平台+内容+终端+应用”四环相扣的电视全产业链布局中至关重要的一步。自那之后，贾跃亭开始四面出击，频繁落子，乐视集团的纵向产业链布局，包括了视频网站乐视网、影视发行和投资公司乐视影业、红酒电商网酒网、终端乐视盒子和乐视电视以及其他通信设备等，现在又新增加了乐视农业。每一步棋似乎都只是闲子，却总能以颠覆者姿态登场，贾跃亭是靠什么做出选择的？

表面看，这是以小米、特斯拉、乐视为代表的“大产品”公司以及公司创始人的成功，但幕后推手却另有其人。我们将在后面的章节中从不同角度逐一展开讨论这些“大产品”以及“大产品”公司的奥妙。

从上面三个例子中，至少可以发现一个事实：在本世纪的第二个十年的门口，空气里的的确确弥漫着一些奇妙的味道——新旧之交，技术嬗变，厚积薄发。人们对产品的传统认知、那些老产品经理们的经验、传统消费电子产品界的面貌，即将迎来一轮暴风骤雨般的“侵袭”。

促成这种局面的第一要素，就是大数据。

大数据的摧毁力

站在如今的时点上，回顾过去10年里这个世界所发生的变化，人们不难发现其中重要的一点——各种各样的数据不再是模拟的了，而是被加速数码化了。借助技术的发展，数据的采集、存储、运算、通信的基础能力得到上百倍上千倍的增长，而这从根本上极大地改变了商业的格局。

IDC（互联网数据中心）预测，2020年基于互联网产生的数据将达到35ZB（1ZB为十万亿亿字节），而1986年的数据只有8GB（1GB为千兆字节）。数学好的可以算算，这是怎样一个数据爆炸的时代。

的确，随着社交媒体（SocialMedia）、移动互联网（MobileInternet）浪潮的到来，大数据分析（BigDateAnalytics）和云计算（CloudComputing）的应用，组织的运营发生了变化。社交媒体在企业内部的应用，使得传统的科层制日渐坍塌，组织开始愈加扁平化；而社交媒体对消费者的赋权，使得企业的运营愈加透明化，而消费者也有权利对企业进行“投票”，选择是否购买其产品。移动互联网的爆发，使得工作与生活的界限更加模糊，一切更加碎片化。由此产生的大量数据在云端实现了交互与传输。

Gartner集团将社交（Social）、移动（Mobile）、大数据分析（Analytics）、云计算（CloudComputing），统称SMAC，认为这四种力量将极大地影响组织运营、产业格局，最重要的是产品开发过程。

不过，人们需要注意的是，并不是所有的数据都有意义。统计学家NateSilver在著名的《信号和噪声》（TheSignalandtheNoise）一书中说：“大数据中大多数都是不相干的噪音。除非有很好的技术信息进行过滤和处理，否则将惹上麻烦。”

我们今天的大数据时代，很像是美国得州刚发现油田的时代，它在信息时代的广泛应用与消费，需要各个学科的通力协作、更换思维，而这正如石油的发现催生工业时代的能源革命一样。也就是说，大数据提供给我们观察世界新的方式，但它往往还是石油粗糙的形式，没有商学院的提炼与应用，它就无法变成汽油、胶粘剂、阿司匹林、唇膏等现代工业的各种产品。实际上，在“前信息时代”，商学院分析消费者行为、市场结构、竞争动态、组织行为、供应链管理时，都因样本有限而受限。因为收集消费者、员工、股票、工厂等的数据都非常耗时，需要承担各种成本。即使像IBM这样的巨头公司，投入大量人力、物力将《人民日报》历年的文本输入电脑，试图破译中文的语言结构，实现中文的语音输入或者中英互译，尽管这项技术在20世纪90年代就取得突破，但仍然进展缓慢，并且在应用中还是有很多问题。

面对同样的问题，互联网巨头谷歌采取了不同的方法，它不是依赖高品质的翻译，而是利用更多的数据。这家搜索巨头收集各种企业网站的翻译、欧盟的每一种语言的文本、巨大的图书扫描项目中的翻译文件。与IBM以百万级计的文本分析相比，谷歌的大数据是以十万亿级计的数量级。其结果是，它的翻译质量优于IBM，能涵盖65种语言，而且翻译质量可以在云端不断被优化。谷歌凌乱的大数据战胜了IBM少量的干净数据。

不过，接下来要怎样对凌乱的大数据进行像处理石油一样的提炼与应用呢？一项重要的工作就是相关性分析。传统的统计分析注重的是在有限的样本下，因果关系的可靠性；而大数据则是从相关性着手，这本质上改变了传统数据的开采模式。

2009年2月，谷歌的研究人员在《自然》杂志发表了一篇论文，预测季节性流感的爆发，在医疗保健界引起了轰动。谷歌对2003~2008年间的5000万最常搜索的词条进行大数据“训练”，试图发现某些搜索词条的地理位置是否与美国流感疾病预防和控制中心的数据相关。疾病预防和控制中心往往跟踪全国各地的医院和诊所病人，但它发布的信息往往会滞后1~2个星期。但谷歌的大数据“训练”，却可以实时发现某些趋势。谷歌并没有直接推断哪些搜索词条是最好的指标。相反地，为了测试这些搜索词条，谷歌总共处理了4.5亿个不同的数字模型。将得出的预测与2007年、2008年疾病预防和控制中心记录的实际流感病例进行对比后，谷歌公司发现，他们的大数据处理结果发现了45条搜索词条的组合，一旦将它们用于一个数学模型，他们的预测与官方数据的相关性高达97%。

不过，数据往往都是不完美的，拼写错误和不完整短语很普遍。为什么谷歌可以实现这么精准的预测？如果从因果关系看，是因为人感到不舒服，或听到别人打喷嚏，或者阅读了相关的新闻后感到焦虑吗？谷歌不是从这种因果关系去考虑，而是从相关性的角度，去预测一个持续发展的大方向。因为大众的搜索词条处于不断的变化之中，外界的一个蝴蝶翅膀的扇动，就会使搜索发生系统的、混沌的变化。

同样的方法也被应用于预测股市。英国华威商学院的研究人员与波士顿大学物理系的研究人员合作，使用谷歌趋势［1］（GoogleTrends）服务，预测股市的涨跌。研究人员共计使用谷歌趋势追踪了98个搜索词条，其中包括“债务”“股票”“投资组合”“失业”“市场”等与投资行为相关的词，也包括“生活方式”“艺术”“快乐”“战争”“冲突”“政治”等与投资无关的关键词，发现有些词条，例如“债务”成为预测股市的主要关键词，这篇题为《使用谷歌趋势量化金融市场的交易行为》（QuantifyingTradingBehaviorinFinancialMarketsUsingGoogleTrends）的论文也发表在《自然》杂志上。

同样，2010年，美国印第安纳大学的研究人员也发现：Twitter用户的情绪有助于预测股市。而2013年诺贝尔经济学奖获得者罗伯特·席勒则倡导“动物精神”［2］（AnimalSpirits）——在大数据的相关性检验下，可以对资产定价实现预测。

当然，谷歌的算法并不是百试百灵，例如，2013年早些时候的“谷歌流感趋势”曾经显示，有10%的美国人可能患上了流感。但美国流感疾病预防和控制中心的数据却显示，峰值只有6%左右。

经过研究发现，原来是谷歌的算法未能充分考虑一些新的外部影响因素所致。例如，媒体对流感的报道增多和社交媒体对流感的讨论增加，都会对该服务的数据和统计信息产生影响。“流感新闻大爆炸”很大程度上改变了人的搜索词条。

这使人联想物理学中经典的“测不准原理”［3］。物理学家玻尔认为在量子理论中，任何对原子体系的观测，都会涉及所观测的对象在观测过程中的改变，和谷歌的算法一样，我们自身的行为可能也在谷歌的观测中改变，因此不可能对量子有单一的定义，也不可能对谷歌预测的趋势用平常所谓的因果性去理解。

所以，理解大数据并没有那么简单。

·注释·

［1］谷歌趋势：主要通过对一段时间内的关键词搜寻量进行统计，得出当下时段的热门内容。百度指数就是类似谷歌趋势的一项内容。谷歌趋势有两个功能：一是查看关键词在Google的搜索次数及变化趋势，二是查看网站流量（Googletrendsforwebsites）。

［2］《动物精神》：2013年诺贝尔经济学奖得主罗伯特·希勒的作品。何谓“动物精神”？简言之，它就是人类经济决策的非理性。信心是否充足、公平感、腐败和欺诈、货币幻觉以及作为人们参照物的“故事”，这些都是动物精神的具体表现。人类的经济决策并非古典经济学理论假设的那般理性和简单，其复杂的心理因素才是整体经济动荡不安的根源。

［3］测不准原理（UncertaintyPrinciple）：又称“不确定性原理”“不确定关系”，是量子力学的一个基本原理，由德国物理学家海森堡于1927年提出。该原理可以简单表述为：粒子的位置与动量不可同时被确定。

第3章 引言(1)

第3章引言(1)