书城管理大数据在中国
10759600000033

第33章 附录

打开大数据之门

☆要点

●如何理解大数据

●大数据寻宝图

●思维与行动准备

大数据从2011年开始在世界范围内声名鹊起,2013年是中国的大数据元年。中国人迅速接受了大数据的思维洗礼,从政府到民间层面,都开始推广大数据,使其发挥更大价值。

如果说您已经通过许多同类书籍知道了大数据是什么与可以做什么,那么本书的附录部分则更注重为您解惑和提供实用指导:面对大数据,我们到底应该怎么做?

大数据究竟是什么“数据”?大数据与商业智能有什么样的区别?大数据的市场究竟有多大?

我们应该重点发展什么,才能实现超越和后发制人?我们的优势和劣势在哪里呢?

在各行各业的专家、评论员与参与者的一片喧闹中,我们为您奉上这本书,不期待能有灌顶的功效,却可让您暂时从诸如大数据产业园、大数据日、大数据专委会、大数据专业、大数据实验室或层出不穷的各种大数据峰会接受嘈杂信息的疲劳中摆脱出来,抓住重点,掌握关键,看一看,想一想,为自己找到一个明确和清晰的方向。

☆基本概念--记住4个V

Volume--体量大;Velocity--快速化;Variety--类型杂;Value--价值大。

☆大数据到底有多“大”?

有一家名为IDG的公司对于每年创建和复制的信息体量做过一个计算:在2011年,大约为1.8ZB;

在2012年,达到了2.8ZB。

根据它的推算,等时间走到2020年时,这个数字将约为40ZB。当然,也有其他的公司不同意IDG公司的数字,它们预测说道:到2016年时,数据的总量也不过是达到1.3ZB。不过,谷歌公司的统计可能更为震憾--从人类文明开始,一直到2003年,在几十万年间,人类一共产生了5EB的数据,但到了2010年,产生数据的速度已经到了每两天5EB的程度了。

这表明,在今天的世界,数据不但已经非常之“大”,而且产生得非常之“快”,远非古人甚至十年前的人可以想象。

看到这里,有志于从事大数据产业或投资数据存储的人可能更加富有信心。不过,对普通人而言,我们能知道的无非是另一个关键问题:我们的个人数据是怎么样的?显然,我们为数据总量做着巨大的贡献,并且也享受着这个总量的质变带来的福祉。

不过,不管数据的总量和速度如何变化,我们都要为它设定一个量化标准。在设定了量化标准后,我们就能有一个简单明晰的数值(无论是不是精确)来指导自己或企业对于大数据的判断。这既是必要的一步,也是明智之举。

☆寻宝图--如果你是大数据创业者,请看这里!

作为创业者和技术人员,如果你已对大数据有较深入的了解,你就有必要知道哪些行业才会拥有大数据,即我们将精力投入哪一部分,才能拥有大数据的春天。在产业链条中,大数据通常分为四类:

科研大数据

科研数据比较古老,实际上在大数据产生前就已经存在了。它们存在于某一些设备、研究资料或者某一些封闭的系统中,拥有科研数据的都是传统的科研机构。它们属于典型的“高富帅”,往往会忽略大众市场。当然,科研大数据的进入门槛也是很高的,往往由国家或大企业主导,个人难以进入。

互联网大数据

互联网大数据肯定是目前的主流,特别是与社交媒体有关的大数据,被认为是大数据产业的爆发点。几乎所有的大数据技术都起源于互联网企业。我们当然也知道它们如雷贯耳的大名,比如百度、谷歌、脸书、雅虎、亚马逊和阿里巴巴。这一行业的驱动力基于两点:一是互联网企业的价值与用户数的平方成正比,也就是“梅特卡夫定律”;二是脸书创始人扎克伯格曾经引用的信息分享理论,即一个人分享的信息每一到两年就会翻一番。

在互联网大数据的产业链中,大型企业占据着绝对的主导地位,它们不仅自身收集和拥有大体量的数据,而且还有平台带动作用,比如阿里巴巴的数据交换平台,360的大型数据中心,百度公司的大数据实验室。所以,中型企业只有开启服务模式才能生存,投入主要精力在外围开发、优化和运作,并同时发展自己的特色,比如豆瓣的“推荐”。

小型公司则属于更低一级的模式,它们情况特殊,虽然拥有一定量的数据,但没有大数据能力,这就催生了一些大数据技术和服务的机会。比如,它们可以为电商网站做个性化推荐和营销分析。还有一些各类广告联盟、移动应用服务平台和提供统计分析、营销服务的公司等,都属于这种情况。

企业大数据

企业的数据比起十几年前并没有数量级的提升,但是在传统基础上加入了非结构化的数据内容。而且,企业大数据与感知大数据有些方面是重叠的,比如企业会部署物联网来收集感知数据。

感知大数据

企业数据是由人来产生的,感知数据是物、传感器、标识等机器产生的。相比之下,感知数据的体量要大得多。有一家公司向我们预测,认为感知数据的总量在2015年将超过社交媒体,并且会达到后者的10?20倍。

我们之所以可以将企业大数据与感知大数据连为一体,划为一个重叠且具备相同性质的产业链条,是因为这两者都涉及传统产业,从经济总量上要比互联网产业大很多。而且重要的是,传统产业自身的大数据能力有限,所以这也是大数据技术和服务企业的主要目标市场,是中小投资者的重要机遇。

从具体的行业讲,对大数据拥有巨大需求的主要集中在公共管理和服务、电信、金融、医疗、零售等方面。不过,在市场竞争激烈的情况下,越是需求巨大的客户,就越难以提供给你轻松进入的黄金机遇,哪怕你的大数据实力是相当优异的。因为不管你走到哪儿,都会发现那些巨头的身影。

☆思维与行动的准备--决策者的板块

作为一个业务决策者,你应具有的大数据观是什么形态的?面临着如此体量巨大的数据,你在思维和行动上要做什么样的准备?

在大数据时代,我们需要新的世界观。大数据已经在技术上为我们开启了一个全新的世界,那么我们就必须主动求变,在思维与行动上对这个世界体现出更新的认知,并高效地转化为结果。

对决策者来说,大数据其实是一种思维,也是战略层面的东西。决策者应该从中看到用户和应用,而不仅是一种技术。但是很明显,许多企业的决策者都在这方面缺位了,他们醉心于技术层面的演进,缺乏宏观思维和布局。

旧的认知--数据是一种稀缺资源。这种认知直接导致了决策者的小农心态,不去关注数据测量和海量的数据收集,而是总幻想可以从最少的数据中挤压出最多的信息。新的认知--大数据的关键在于“大”。

决策者自己要有勇气参与大数据的游戏并且取得胜利,为自己树立“大”的概念,去收集全数据,而不是习惯于过去的抽样处理和分析。决策必须建立在全数据的基础上,全面和客观地去分析所有因素,并将此作为自己的一种责任和信仰。决策者需要具备的大数据观也很简单:对我们来说数据不是累赘,而是财富;数据不管用过没有,都要保存下来,从而逐渐将“成本”转化为“利润”。而且,必须尽量地减少自己的主观性。

1.让数据收集工具决定收集哪些信息,去哪里收集。

2.如果我们的分析过程带有天然的主观性,比如民意调查或街头采访等,那么在做出数据采集的决策前,你有责任为它设计更客观的前提,比如通过设置很多问题来减少主观误差。

3.你要尽可能地把数据采集和存储纳入一个共享的平台,也就是建立一个基础框架,而不是来一个业务就做一种不同的采集和存储方案。并且,你还需要在数据采集的过程中引入激励机制,为决策做最充足的准备,收集最丰富的信息。