书城经济一本书读懂大数据
21532200000005

第5章 数据的收集管理和使用(2)

很多大公司正在数据管理这条路上学习,而当前我们面临着很多以往不曾遇见的问题。比如,我们是应该在各个部门里运作,还是集中管理数据?我们是应该在数据安全的前提下更开放,让更多人找到数据的价值,还是应该更封闭,让泄露数据的可能性更小?另外,个人隐私怎么去保护?我们怎么才能成为一家负责任的数据管理公司?这些都是代表性的难题。

现在,大型的互联网公司通常都同时拥有成百上千种在开发的项目,它们都在直接或间接地改变着数据,而在这种情况下,又如何保障数据安全?事实上,数据的源头已经“脏”了,而下游使用数据的人还不知道,同时,源头的数据使用者也没有责任告诉下游这些数据已经“脏”了。

所以,如果你数据使用得不好,这对你的发展影响也不会很大。但是如果你数据使用得好,而且将它作为公司的核心竞争力,那么你的麻烦就大了。因为你的数据源本来就来自各个地方,而每一个来源都没有责任要告诉你,今天从它那儿来的数据是正常的和可靠的。特别是大数据出现后,数据的精准与否更加重要。因为大数据在很多情况下,是利用外部数据来帮助内部数据进行调整的,如果你的内部数据难以保证“干净”的话,那么外部数据同样无法保证“干净”。

数据管理,是大数据行业的“脏活”、“苦活”和“累活”,是最悲催和最难解决的事情。如果没有这些背景做铺垫,人们对很多公司在做的所谓的大数据的运营就持有怀疑态度了。

注意数据分类的维度

在观察与分析数据中,我们要从中抽象出来,更好地将数据进行归类和整理,从而更加清晰地识别出数据的价值。

今天,我们多数人把自己关注的焦点放在结果上而忽略了过程,而事实上这些过程其实也蕴含了数据管理的过程和数据分类的过程。有些关键数据必须做好保护,若这几个数据变了,或者被污染了,前面的价值也就无法保证了。

有人肯定会问,管理数据是一个过程,能不能分解?能不能区分哪些元素是比较重要的?哪些是有代替品的?哪些是无可取代的?哪些是不可或缺的核心?其实,这些问题就包含数据战略。

所以,我们不可以含糊地应对,要从中抽象出来,更好地将数据进行归类和整理,从而更加清晰地给出数据的价值。

权威的数据公司从数据分类的角度将数据分为以下4种:

1.按照是否可以再生的标准来看,可以分为不可再生数据和可再生数据

不可再生数据通常就是最原始的数据,比如用户在访问网站时,浏览记录会追踪用户的行为,如果当时没有被记录下来,就没有其他数据来还原用户的行为了。这个有点像拿着相机拍闪电,抓拍很重要,一旦错过,闪电就不可能再重复刚才那一瞬间的光影了。因此,对于用户日志类等不可再生数据而言,必须要有很完善的保护措施和严格的权限设置。现在,很多系统都有备份多份数据的功能,理想情况应该是,因为磁盘损坏而造成数据丢失的案例应该越来越少。但是,因为系统升级失败和误操作等造成的数据丢失在各家公司都屡见不鲜,见怪不怪了。

可再生数据就是通过其他数据可以生成的数据,原则上,指标类数据的衍生数据都是可再生的——只要原始的不可再生数据还在,就可以通过重新运算来获得。不过千万不能因为“可再生”这个词语的存在,就对可再生数据不重视。有些可再生数据是通过很长时间的积累不断加工而成的,是长时间从海量数据中计算出来的,比如对某个用户在数个月内的连续购买行为产生的规律,如果未做保护,虽然仍然可再生,但是再生的时间却会给企业带来问题。因为即便对于有顶尖计算能力的公司来讲,都可能是数日,甚至是数周、数月,而这个时间过程可能就会对公司的某一项核心业务造成毁灭性的打击。

对不可再生的数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收集。举个例子,很多电子商务网站是不关注客户在商品详情页面有没有做滚屏操作的。如果这一类型的数据没有被记录下来,企业就无从知道详情页的有效性。当商品页面进行改版,需要对此类数据进行参考时,就没有办法来获得相应的数据支持,最后能做的就只能是等待在页面上进行布点开发,等待数据收集到之后再进行决策,这就造成了决策的延误。

对于可再生数据而言,要及早做好业务的预判和数据处理的规划,这样一来,数据在需要的时候就能够快速地获得应用,人们把这一数据称为数据中间层。

2.按照数据所处的存储层次来看,可以分为基础层、中间层和应用层

从数据的存储角度来说,数据有很多层次。基础层通常与原始数据基本一致,也就是仅仅存储最基本的数据,不做汇总,以尽量避免失真,从而用作其他数据研究的基础;中间层是基于基础层加工的数据,通常也被认为是数据仓库层,这些数据会根据不同的业务需求,按照不同的主体来进行存放;应用层则是针对具体数据问题的应用,比如作为解决具体问题的数据分析和数据挖掘的应用层的数据。

在存储层这个层面上,最大的问题就是数据的冗余和管理的混乱。尤其是对于一些拥有海量数据的大公司而言,数据的冗余问题尤为严重,由此造成了大量的浪费。

在大公司中,进行数据分析、开发、挖掘的人可能有数十甚至是数百人,这些人可能归属于不同的业务团队,为了满足不同的业务各自分析数据应用。这样一来,不同的人可能都从头开始建立起了一套包含基础层、中间层和应用层的数据,而彼此之间又没有合适的交流方式,也就造成了工作的浪费。那是不是应该把所有的数据进行更好的归纳或者管理呢?任何管理方法,无论是集中式管理,还是分散式管理,都各有利弊,而且人和业务多了之后,企业也很难进行集中式管理。专家给出的建议是,基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好的元数据管理方式,就能极大地降低成本。

而对于中间层和应用层而言,则要视具体情况而定:如果公司的业务相对单一且成本压力比较大,则建议集中式管理;如果公司的业务量非常大,则可以由多个数据团队来进行分散式管理和应用,以保证基础层单位有最高的灵活性。