书城经济一本书读懂大数据
21532200000004

第4章 数据的收集管理和使用(1)

收集数据不是最要紧的

大数据时代,不管你用与不用,数据就零零碎碎地散在那里。但是,要想使用大数据,首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到硬盘里面那么简单,更重要的是对数据进行分类、存放及管理。不然就如同一个储藏很多物品的储藏室——放东西进去的时候很轻松,但是要知道哪些东西有用,或者拿出有用的东西的时候就不那么简单了,甚至可能再也找不到。对于数据的认知,完全取决于我们是否拥有认知自己所拥有数据的能力,是否能够筛选出到底什么是核心数据,到底什么数据会被我们频繁地使用。这就要我们学会如何去收集数据。

无论我们承认与否,在大数据时代,我们周围到处都充斥着零零碎碎的数据。为此,我们很容易在海量的数据之中迷失。

我们盲目地进行大数据投资,收集越来越多的数据。但是,令人沮丧的是,这些数据却是“死”数据。那么,什么是死数据呢?

“死”数据就是单纯存储在教据库中,无法进行分析和使用,并且不能够产生价值的数据。

“死”数据不是真死,可以将其激活。那么,如何激活这些“死”数据,让整个大数据“活”起来,并成为实践中的牵引力呢?答案就是:收集是第一步,收集后通过甄别,选出有用的数据,将它用起来。

数据的价值在于使用,不是存储。就像储藏室里的物品,假如你不会将其中有用的东西拣拾出来使用,你储藏的东西再多也是没有价值的。所以,我们在储藏物品的时候,一是要储藏有使用价值的物品,二是要将其拿出来使用。于是,如何收集物品就成了一门学问。数据的收集和物品的收集有异曲同工之妙。

人们发现,大数据的真正价值是将数据用于形成主动收集数据的良性循环中,以带动更多的数据进入自循环中,并应用于各个行业。什么是数据的自循环呢?

举个最简单的例子来说,现在的很多网站都有推荐功能,很多推荐出来的东西,不论是音乐、视频,还是商品,都可以让用户来选择“喜欢”或者“不喜欢”,这样一来,企业就可以通过用户的选择基于计算机后台的算法为用户重新推荐,这就变成了一个循环——从基于已有的数据进行“分析—推荐—反馈—再推荐”的过程。当然,自循环还远不止这样一种形式。多样的自循环方式打开了大数据之门,而进入这个循环的关键就是,从解决问题出发。在数据的自循环中,有两个核心的关键点:一个是“活”做数据收集,另一个是“活”看数据指标。

比如,多年来,很多企业因无法建立数据收集的循环,致使其运营数据更多地建立在直觉的判断和分析基础之上。当面对周围海量的消费者数据时,充满了危机的大数据更难为企业的运作提供清晰的思路。对数据无从下手成为企业面临大数据时代的核心短板。这时,如果没有找出相关的关键解决方法,企业就会在由海量数据构成的新兴市场中错失发展的良机。

“活”做数据收集

所谓“活”做数据收集,就是指用户不要局限于只收集自己用户产生的数据,还要把“别人”的数据收集过来进行综合分析。

前面提到过,数据收集,一方面是“自己用”——用其他外面的数据来增加自己手上数据的精准度,为我所用;而另一方面是“给别人用”——把我的数据贡献给很需要我的数据的人,从而提高他的数据的精准度。

在很多年前,亚马逊就主动去收集用户的IP地址,然后从IP地址破译出用户所处位置的附近多少公里内是否有书店。工作人员从收集到的数据中了解到,一个人是否选择在网上买书,很重要的原因是他的附近有没有书店。亚马逊主动收集数据,即通过收集一个外部数据,来帮助自身判断线下是否存在潜在的竞争对手。

京东也是这样。他们收集客户浏览商品的数据,然后将相关产品推荐给客户。一个企业在做数据收集的时候,并不总是能够直接收集到所需要的关键数据,这时候就需要变通一下了。

柯友强在一个外贸B2B平台工作,柯友强能很快找出新品种的趋势,但很多人不知道他是如何做到的,柯友强也没有对任何人说过自己的招数,有的人甚至以为在柯友强背后有高手相助。

多年以后,柯友强才向他的同事倒出自己的秘密。他发现新的品项,是通过追踪美国垂直行业电商的广告关键词变化来实现的。

由于中国的生产商跟美国消费者的距离很远,如何才能收集到美国消费者的数据?一般来说,是不可能的。有一批厂家是从中国海关购买数据,但是海关的数据是滞后的,无法让企业及时获取行业的发展趋势。不过,奥妙就在美国采购关键词的那些经理手上,而这个数据是可以从国外网站搜索到的,于是答案就这样到了柯友强的手上。

在欧美,这些搜索引擎营销(SEM)专家会为公司设计购买关键词的方案,而柯友强就主要关注这些人的数据,看他们换了什么关键词,以了解欧美的商品发展趋势。这样,柯友强就可以很快知道欧美现在流行什么样的东西,而这就是利用外部数据来帮助自己做决策的方法。

柯友强说,以日用化妆品为例,先是观察在欧美做得最好的几家化妆品类网站买入了什么关键词、变换了什么关键词、有什么关键词是常态的,以及有什么关键词是在季节更迭的时候才买入的。

在观察到这些关键词之后,柯友强放到谷歌中去观察关键词的增长趋势,去eBay看看这一款化妆品有没有交易及价格的变化。在知道eBay有交易之后,柯友强再放到国内电商平台中搜索这个产品。如果没有出现相应的搜索结果,就意味着这可能是一个良机。

所以说,做大数据收集,有时候需要更多的灵活变通。亚马逊的案例的确经典,不知道京东是不是借鉴了他们的做法,因为他们都找到了消费者购买决策链条中的一个关键点;而B2B寻找关键词的重点在于如何观察第三者数据。每个人都知道在收集消费者数据时最好是观察直接用户。但如果没有这个数据,你需要观察什么数据?答案就是,去观察行业内对这个数据最敏感的那些人,你也能获得成功的密码。

生活中其实也有这样的例子,李嘉诚说,如果你想知道香港的某家酒楼生意好不好,你问问门口卖报纸的人就知道了——香港人喜欢去喝茶的时候买一份报纸。其实,这个规律不是李嘉诚观察到的,而是香港税务局发现的。香港税务局如果担心酒楼对营业额虚报的话,就可以通过直接去查卖报纸的商家卖了多少份报纸来判断,这是一个非常有趣却很实际的灵活收集用户数据的案例。

“活”做数据收集,就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。而“活”做数据收集的一大好处,就是能够规避现有数据框架的弊端,更好地反映用户的实际需求和市场的实际情况。

“活”看数据指标

“活”看数据指标就是指企业不要局限于已有的数据框架,而应该结合用户需求的不同场景来灵活应用收集到的“活”数据。我们不仅要灵活地收集数据,而且还要注意到,数据收集只是第一步,如果不让数据“活”起来,仅仅是把收集的数据简单堆砌在一起,是没有意义的。

举个例子说,我们在京东购买商品的时候,或在某个网站注册时,他们会要求用户填写自己的性别。假如一个人填写的性别是男性,但分析这个人的购买行为时发现,很多时候他的账户在告诉网站,这些商品的目标客户并不是他自己,因为这个人也会为他的妻子和父母买东西。

当收集到的这些数据不能为企业所用时,企业就永远不知道关于这个人的这个数据原来是不准确的。这些数据好像是准确地描述了这个人的性别,但是却不能很准确地描述这个人的搜索和购物行为,因为他可能会为他的老婆买一包卫生巾或一套化妆品。

在梳理阿里巴巴的数据时,阿里巴巴会有18个性别标签。听上去这很不可思议。你肯定会想,阿里巴巴是不是疯了,为什么凭空造出了这么多的性别?

事实上,每一个性别表现都并非看上去那么简单,因为它的分类是基于用户在不同场景中不同表现而做出的。这就揭示了一个问题,我们每个人都不会只呈现出简单的一面,比如在安静时和在人前时,我们就会表现出不一样的自我。不同的性别标签其实就是应用了这一原理:同样的人在搜索商品时可能会表现出不一样的行为特点,而这些不一样的行为就是我所说的场景,结合场景应用数据就是“活”用数据。其实,有多少个性别标签并不重要,重要的是如何让用户在不同的场景中获得更好的服务,而这都是基于这些“活”数据。

亚马逊一直在自己的商业活动中应用这个理论。一直以来,亚马逊就是使用动态数据模型:用“历史的你”去推测“现在的你”。所以,它相信今天登录网站的你有什么需要与兴趣,比起历史的“你”来说更重要。

“活”用数据,就是你是否能看出这个数据本身的局限是什么。一方面,是数据为用户体验改善了什么;另一方面,企业在使用数据时,对活数据的运用解决了什么问题,或者创造了什么机会。要牢牢记住,活用数据很重要。

“活”的数据是“活”用数据的精髓所在。企业能够基于场景和相关的“活”数据将数据应用发挥出最大的价值,那么新的商业模式的开创也就会在不远的将来成为可能。

数据的存放和管理

为什么要收集数据?当谈到如何更好地解决这些问题时,我们想到了运用数据可能是有效的,所以我们开始收集数据、管理数据和使用数据。

就拿电子商务的数据收集为例,比如母婴类目,很多电商通过填写宝宝的年龄或者购买的特定品类等来推算出宝宝最新的一个年龄阶段;在汽车类目上,电商会通过客户购买的机油、滤清器等型号来推算出客户是否有汽车以及车型;甚至是衣服也可以用来作为数据收集使用的场景,比如从一个用户购买衣服的历史尺码来观察用户是否有身材上的变化。

所以,就数据的收集而言,最重要的不是看我们收集了什么数据,而是要思考这些数据如何使用以及收集这些数据到底能够起到什么样的作用。用一句话来说,就是收集数据不是目的,收集起来的数据如何产生价值才是最终的目标。不过,如何收集在未来具有价值的数据的确是一个难题,当中就需要一些经验的判断了。

数据存储下来之后,数量和广度都很大,就需要对之进行完善的管理。数据管理的内容包括很多方面,比如,数据的来源、如何让数据不丢失、如何保护数据的安全、如何让数据准确和稳定以及如何更好地运用数据,这些都是数据运营中的“管”。但是,“管”并没有一个标准可循。大数据管理到底要怎么做?目前还没有准确答案。

其实,对于数据的管理,整个大数据行业和其他行业一样都经历过很多起起落落。就数据而言,在2004年左右,美国的一些数据管理经验在国内造成了很大的轰动,很多公司纷纷建立BI团队。但是到了2009年左右,各公司又开始不完全认同BI数据部门。但也正是在那个时候,国内顶尖互联网公司的数据化运营开始启动。

有些公司的数据管理非常依赖数据产品,希望用数据产品来解决获取及使用数据的问题。他们认为“不管怎么样,我们先收集数据,将来肯定有用”。其实这是不妥的,因为没有一家数据运营商可以让你无止境地收集数据,然后再使用,这根本是不现实的。

而这就是“不做决定的代价”。因为,在这个世界上,有一些决定是我们一定要做的。从运营数据的角度来说,如果我们只收集数据而不做分析和应用的话,代价就是很沉重的存储成本。

无须多言,这种存储成本的代价是巨大的。即便是一家富有的公司,即便是它的机器比较多,也只能短时间地延续这种损失。因为不管你有多少机器,这些数据都在呈指数式增长,当提到怎么备份时,问题就出来了。

你肯定会问,在这种情况下如何备份?此时,你就要决定,什么东西需要先备份,什么东西可以先放在“冷库”里。“冷库”的意思是一些成本比较低的服务器,但是放在“冷库”中的数据不能随时使用,需要调出来才可以使用。

针对这种情况,有人说,我们仅把3年前的数据都放进去吧,够吗?答案就是:还是太多了。有人说,那我们可以把一年半以前的数据都放进去吧?不行,因为用数据观察业务发展趋势的分析师一般都要看3年的数据,所以这种做法也不现实。

在面对“决定放什么数据进‘冷库’”,和“决定什么数据在紧急情况下一定要保护”的问题时,你就会发现以前我们所讲的观点——数据先收集起来,将来再使用,完全是一个伪命题。

之前从来没有人对这个伪命题表示过异议,无论银行,还是金融机构,甚至以前的互联网公司。而当大数据出来后,这个观点就成为了一个借口、一个伪命题。这是一个很难下的决定,但这就是你必须要做的决定。如果,你在以后发现你需要的数据,的确没有得到提前保存的话,那就只能错失这一发展机会了。事实上,这是企业的博弈。

或许有人会问,一家企业并不需要从事所有的商业,为什么所有的数据都要收集呢?事实就是这样,这是数据人在管理上的不负责任,平心而论,这个责任也非常难承担。