登陆注册
3133300000002

第2章 身处数据时代,揭开大数据的面纱(1)

科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置。越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富。大数据时代伴着铿锵有力的节奏引领了世界的新潮流。

大数据到底是什么?

如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及apache org的开源项目Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。

研究机构Gartner曾给大数据(Big data)下过这样的定义:大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。

大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》(James ,2011)是这么定义“大数据”的:

大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。这个定义也有很强的主观色彩,因为究竟什么样规格的数据才是大数据,这没有统一的标准,也就是无法确定超过多少TB(1000GB)的数据才是大数据。随着时间的推移和技术的发展,我们必须知道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以,现有各行业的大数据可以是几十TB,也可以是几千TB。

按照EMC的界定,特指的大数据一定是指大型数据集,规模大概在10TB。通过多用户将多个数据集集合在一起,能构成PB的数据量。

在IBM2011IOD大会上,负责IBM软件和硬件两大集团的高级副总裁Steve Mills曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞争的优势,要将其转换为生存的根本。”

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM公司对大数据所概括出的三个V,其实也说明大数据潜藏的另一个V——价值(Value)。就这么说的话,大数据确实具备这四个V的基本特征。

大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于1024B,就是千字节。除此之外还有更高的单位MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zetta byte,泽它字节)和YB(Yotta byte,尧字节)。每一级之间的换算关系是1024。到了2009年,几乎每一个美国企业,只要是雇员人数超过1000人的,它的数据存储量大概都超过了200TB,这是十年前沃尔玛公司数据仓库存储量的2倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了1PB。2010年欧洲组织的存储总量大概为11EB,这个数字几乎是整个美国数据总量(16EB)的70%。2010年全球企业在硬盘上的数据存储量已经超过了7EB,而在PC和笔记本电脑等设备上的个人存储量也超过了6EB。美国国会图书馆当时存储的数据大概只是1EB的4000分之一(James,2011)。硬件技术的发展速度远远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们90%的数据给处理掉(这其中包括几乎所有在手术过程中产生的实时视频和图像资料)。

只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的,这就是第二个V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的Excel软件中处理的数据,这称为结构化数据。可是现在随着互联网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是63%,相对而言结构化数据增长率只有32%。2012年,非结构化数据在整个互联网数据中的占比已经超过了75%。

Informatica中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。

简而言之,三种主要技术趋势汇聚成了大数据:其一是海量交易数据,包括半结构化和非结构化信息,在从ERP应用程序到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更为复杂的局面。其二是海量交互数据。因为Facebook、Twitter、LinkedIn以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件,等等。其三就是海量数据处理。随着大数据的涌现,已经有很多用于密集型数据处理的架构应运而生,比如Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。它之所以可靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop也是可伸缩的,PB级的数据它也可以处理。另外,Hadoop因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。对企业来说,最难的在于如何通过成本效益的方式从Hadoop中存取数据。Hadoop最知名的用户是脸谱。通过Hadoop,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得较高的收益。

“大”是重点,还是“数据”是重点?

先来做一个小测验。当阅读开始前,先停下来思考这么一个问题:哪部分是术语“大数据”中最为重要的?是大,还是数据?还是二者都一样重要,或是都一样不重要?花一分钟的时间去思考这个问题。假如已经有了自己的答案,那就开始阅读接下来的内容。

既然答案已经有了,那就来看看哪个是正确的?显然,正确的答案应该是最后一个,事实上在大数据中,“大”和“数据”都不重要。其中最重要的是企业该如何去驾驭这些大数据。对大数据进行分析,以及在此基础上采取的业务改进才是最为关键的。

事实上,大数据本身是没有任何价值可言的。即便是一个人比另一个人拥有更多的数据,这也不代表什么。任何一个数据集,它们或大或小,本身都没有价值可言。如果不懂得如何去使用收集来的数据,那这些数据不会比地下室里的垃圾更有用。要是不投入环境或者是付诸使用的话,数据的意义就不在了。任何大量或是少量的大数据该如何体现自己的威力呢?要怎么去分析这些数据呢,又该如何去洞察或是采取什么样的行动呢?这些数据又要如何来改进业务呢?

很多人在阅读了众多炒作大数据的文章之后就相信之所以大数据要比其他数据有优势,就在于它的容量大、速度快和多样性,这种说法并不准确。在很多大数据当中,相比以往数据会存在更多毫无价值或是价值很小的数据。一旦大数据被精简到实际需要的容量时,它们所呈现出来的就不是大数据了。事实上这也不重要,无论是它被精简还是保持原本庞大的模样,这些关系都不大,最重要的是处理它的方式。所以说使用数据要比起它的容量更为重要。

大数据庞大的规模并非人们所关注的,包括它们能带来巨大的内在价值也非关注的事实。最大的价值还在于分析的方式,以及采用什么样的方式来改进自己的业务。

在人们阅读一本书的时候,关键点的第一个是大数据的大数据量,并且要承认大数据也是数据中的一种。只不过这并非企业兴奋的理由所在。这些数据使用时的新颖且强大的分析方式才是企业注意力集中的地方。作为社交网络应用的Facebook和微博,都构建了关联普遍用户的行为数据。人们在网络上浏览网页、购买商品、游戏休闲原本是不关联的。当智能手机推广普及之后,网络的行为越来越碎片化了。假设没有一定的关联,就很难去分析和利用这些数据。社交网络提供给用户统一的接口,让无论是玩游戏还是买商品的客户可以轻松地把碎片化的信息发到网络上。就像是一个用户行为数据连接器的角色一样,微博把所谓网络上用户的行为,完整地关联起来,画出一幅生动的网络生活图景,把用户的偏好、性格、态度等特征真实地反映出来,而这当中就是最为充分的商业机会。

彼此关联的数据价值要远大于孤立的数据。可是在当下数据孤岛是很常见的。个人计算机中的文件一般都会以某种类目来存放,内容和内容之间没太强的联系。企业之间也是如此,很多部门之间都壁垒林立,似乎每个人都愿意去保护自己的数据,从而形成“数据割据”的局面。只要是处在数据孤岛中,大数据所潜在的价值是很难被挖掘出来的。

与众不同的大数据

有别于传统数据源的大数据有不少重要的特征,不是每个大数据源都有这些特征存在,绝大多数的大数据或多或少地都存在一些这样的特征。

第一个特征是大数据的来源往往是机器自动的结果。人工不会干涉到新数据的产生过程,完全是机器自动的结果。如果拿传统数据源进行分析的话,就会发现它们的形成过程中会有人工的痕迹,像是零售业和银行交易、电话呼叫记录、产品发票等等,和某个人做的事情都有关系,无论什么情形,都会有人参与到新数据的形成过程中。可是大数据不是这样产生的,它不会在产生过程中与人互动,像是引擎中内置的传感器,即便没有人干预周围数据也会自动生成。

第二个特征是大数据作为一个全新的数据源,不仅仅是已有数据的收集扩展,比如在互联网中,顾客与银行、零售商之间可以直接在线交易。事实上这种交易方式和传统交易差异不大,不过是换一种渠道而已。企业通过收集网络交易数据就会发现这样情形下的数据和多年来他们得到的传统数据差异不大,不过是数量增加了而已。如果收集的是客户浏览行为的数据,那就会产生本质上全然不同的数据。

上面提到的相同类型数据,不过是数量多了的说法也会因为达到另一个极端,成为最新的数据,比如说传统读电表都是人工方式,也就是说自动读取用电数据的智能电表所产生的数据就是类型相同,不过是数量增加了。不过这种数据在某种程度上也能成为一种有别于人工读取的数据,应用更为深层次的分析方式,这样一来它们就可以称作是新的数据源。

第三个特征是大数据中的大多数设计并非友好。实际上这些数据并未经过设计。就拿社交媒体网站上的文本流举例,用户不一定会被要求用标准的语序、语法和词汇表。人们的信息一经发布,社交平台就能够获得数据。这些不太规范的数据处理起来还是有一定困难的。在设计之初,大多数的传统数据都尽量要友好一些,就比如收集交易信息的系统最早生成数据会以整洁或是预先规范的方式来操作,这样形成的数据就更有利于加载和使用。还有一部分原因是由于要对空间进行高效利用,以避免出现空间不够的局面。

大数据有时候还会是凌乱和丑陋的。通常最开始传统数据就已经被严格地定义。每一比特的数据都存在重要的价值,这是必需的。一般大数据源一开始不会被严格定义,这和存储空间的开销越来越微乎其微有关,必须对各种有用的信息进行收集。所以说大数据分析的时候,各种凌乱丑陋的数据都有可能遇见。

最后的特征是海量数据并非有大量价值。实际的数据很多都是毫无价值的。在一篇网页日志当中,非常重要的数据就包含其中,当然也有好多没价值的数据也在其中。很有必要从中提炼最有价值的部分。定义传统数据源的起初就要求数据是百分百有用。这是因为可扩展性受到了限制,所以如果有没价值的信息在当中的话代价会非常昂贵。除了最初定义的有数据记录的格式外,数据内容和价值也被定义和约束了。当下存储空间的问题已经不存在了。大数据所收集的是所有的信息,然后再去解决这些冗余信息所带来的问题。只有这样才会不遗漏所有的信息,与此同时在分析数据时的麻烦也会让人头疼不已。

同类推荐
  • 不懂PowerPoint就当不好经理

    不懂PowerPoint就当不好经理

    经理人如何用PowerPoint,来规划部门的发展,如何用PowerPoint来表达自己的经营主张?本书为各类经理人提供了从入门到提高,从原理到实战的一系列知识,相信本书将让演示文稿为经理人的管理效能加分!
  • 一本书读懂大数据

    一本书读懂大数据

    本书是深入研究互联网思维的经典之作,从互联网思维的定义到互联网思维应用的具体案例表现。作者深入浅出、条分缕析,全面阐述互联网思维的内核与精神,逐一点评当前关于互联网思维的各种观点。本书从最初级的互联网思维应用到高端的粉丝经济,平台建设,自媒体营销的方法都有详细讲解介绍。让读者了解什么是互联网思维的同时还能学会把互联网思维运用到自己的工作学习已经生活中。
热门推荐
  • 用心管理

    用心管理

    本书适合于企业中、基层管理者,以及那些具有升职希望的优秀员工阅读,作为自我培训的进阶读本。另外,作为工具书或培训教材,本书还适合从事管理咨询与管理培训工作的职业管理顾问阅读。当然,本书对于行政事业单位的中、基层管理者来说,亦具有极强的参考价值。
  • 美国精神

    美国精神

    本书展示了这么一幅复杂但明晰的“美国精神”图景:美利坚民族既牢固地确立了政教分离原则,但在政治和社会生活中又依赖甚或迷恋宗教精神;它承认和甚而维护国内的价值多元和种族多元,但同时保持不免偏狭的“白人盎格鲁-撒克逊新教”(WASP)主流;它宣称拒绝单一的真理,但时时表现出非黑即白非此即彼的绝对主义和普遍主义思维方式;它的民族文化基因中有着对人性的深深怀疑和“性恶”信仰,但它又自信非凡,而且有时幻想有加,以致幼稚;
  • 傻子王爷无情妃

    傻子王爷无情妃

    一只毒蝎子,彻底断送了她年轻的生命!别人只知道,那个软弱没主见的女人被迫嫁给一个痴傻呆闷的七皇子。殊不知,她早已不再是“她”!面对痴傻只会憨笑的美男,她气愤难填!你傻,本美女就医好你,谁知医好后,遭到嫌弃,却换来一纸休书,气愤之下,她恨不得与他同归于尽……
  • 《周礼》主体思想与成书年代研究(当代中国人文大系)(修订版)

    《周礼》主体思想与成书年代研究(当代中国人文大系)(修订版)

    《周礼》一书原名《周官》,最初见于《汉书·河间献王传》。《传》云:献王好古学,广求遗书,所得皆先秦古文旧书,有《周官》、《尚书》等多种。武帝时,除挟书之律,开献书之路”,献王入朝,当以此书进献,遂入于秘府。哀帝时,刘歆校书中秘,得此书,著于《七略》。班固本之,作《艺文志》,录《周官经》六篇。汉末郑玄作注,唐贾公彦作疏,此书遂列于五经,为《三礼》之首。自汉至今,学者对此书争论甚烈,迄无定论。我们在今日跳出经学之争的圈子,以史学眼光看此书,把它作为研究周代典章制度的史料,应取何种态度,学者所见亦往往不同。
  • 无敌大小姐

    无敌大小姐

    当现代阴狠毒辣,手段极多的火家大小姐火无情,穿越到一个好色如命,花痴草包大小姐身上,会发生怎样的化学反应?火无情一醒过来就发现,自己竟然在众目睽睽之下上演脱衣秀。周围还有一群围观者。这一发现,让她极为不爽。刚刚穿好衣服,便看到一个声称是自家老头的老不死气势汹汹的跑来问罪。刚上来,就要打她。这还得了?她火无情从生自死,都是王者。敢动她的人,都在和阎王喝茶。于是,她一怒之下,打了老爹。众人皆道:火家小姐阴狠毒辣,竟然连老爹都不放在眼里。就这样,她的罪名又多了一条。蛇蝎美人。穿越后,火无情的麻烦不断。第一天,打了爹。第二天,毁了姐姐的容。第三天,骂了二娘。第四天,当众轻薄了天下第一公子。第五天,火家贴出招亲启事:但凡愿意娶火家大小姐者,皆可去火府报名。来者不限。不怕死,不想活的,欢迎前来。警示:但凡来此,生死皆与火家无关。若有残病者火家一律不负法律责任。本以为无人敢到,岂料是桃花朵朵。美男个个很妖娆一号美人:火无炎。火家大少爷。为人不清楚,手段不清楚。容貌不清楚。唯一清楚的是,他有钱。有多多的钱。火无情语录:钱是好东西。娶了。(此美男,由美瞳掩饰不了你眼神的空洞领养。)火老爷一气之下,昏了过去。家门不幸,家门不幸啊。二号美人:竹清月。江湖人称天上神仙,地上无月。大国师一枚。美得惊天动地。火无情语录:美人好,尤其是自带嫁妆又会预测未来的美人,娶了。(此美男,由东de琳琳领养)三号美人:轩辕子玉。当朝七皇子,游历四国。一张可爱无敌的脸。单纯至极。火无情语录:可爱的孩子好,可爱又乖巧的孩子更好。可爱乖巧又不用给钱的孩子,娶了。(此美男,由刘千绮领养)皇帝听闻,两眼一抹黑。他的儿啊。怎么就这么不争气呢。四号美人:天下第一美男。性格不详,籍贯不详。火无情语录:谜一样的美人,她喜欢。每天都有新鲜感。娶了。(此美男,由告别的爱情li领养。)五号美人:天下第一名伶。火无情语录:解风情的美男,如果没钱花把他卖了都不用调教。娶了。(此美男由伊眸领养。)六号美男:解忧楼楼主。相貌不详,身世不详。爱好杀人。火无情语录:凶恶的美人,她喜欢。娶了。(此美男由陈铭铭领养)七号美男:琴圣。貌如谪仙,琴音杀人。冷清眸子中,百转千回,说尽风流。(此美男由伊眸领养)夜杀:天下第一杀手。(此美男由静寂之夜领养)
  • 宫囚将军

    宫囚将军

    单纯的爱与单纯的恨,都不可怕,可怕的爱与恨的纠缠,爱到至深处,恨到至深时,爱与恨,蒙蔽着本来的真心,伤害彼此至最深…她,一个绝色的美女,却有着一个男人的名字,应龙生,她是天龙国的护国侯,掌握全部兵权的兵马大元帅。她睿智,艺高,勇猛,果断,战场上,敌人闻风丧胆,称为“铁血阎罗”。对峙中,没有一个男人敢轻视这个女人,否则一定会付出血的代价…有她这么强势的一个人在,应该能保得天龙国的安宁,可是,那个君王啊,自私,任性,残忍,暴戾,好色…为了一个女人,出无名之师,将她辛苦战来的结果拱手让人…他,滕飞雨,烈炎国的君主,为了换回被那个女将军俘虏的弟弟和五万兵将,只能痛心将自己的心爱的女子送给那个天龙国那个好色的君王。他的爱人,不甘受辱,行刺天龙国君未果,竟被他残忍地强暴后被手下的军士轮奸至死.而他最亲的弟弟,竟也在回朝途中,被那个女人刺杀,他和应龙生,此仇不共戴天。最终,大势已去,就算她有天大的本事,也扭转不了现实,她成了亡国将军,成了他报复的对象.,数万人前的当众奸污,残酷至极的刑罚,挑去手筋脚筋,他将她变成一个连大小便都无法自主的废人…这样的残酷依然打不倒她骨子里的那股倔强与傲气,那么,他就让她的心痛,让她的心碎…然而世事难料,人,不可能掌握所有的一切,爱与恨,情与仇,离与合,生与死,起起伏伏的跌荡下,心呢,在何处…甲胄散,长剑断,羽翼折,望天啸,何时天地由我任逍遥......应龙生:"滕飞雨,你做到了,我爱上你了,你想要的我都可以给你......只要你一句真心话:你是真的爱我吗......"应龙生:"滕飞雨,曾经,我放弃了所有的一切去爱着你......你伤了我的心,绝了我的情......在我不再爱着你的时候,你却跑来告诉我说你爱我......"滕飞雨:”应龙生,我爱你......就算是日月星辰会变,我对你的爱,也不会变......“史樵:”龙儿,我会用我的一生来守护着你的幸福......“一个不一样的女人,一段不一样的恋情,希望带给大家不一样的思忖......-----------------------------------------------------------------------------------------------推荐自己的完结文《虐爱残情》
  • 嫡女棣王妃

    嫡女棣王妃

    “姨娘,夫人似乎断气了~”“哼!这么一碗药都下去了,难道她还能活着不成?”“那这······”一个年纪稍长的人朝着这位称作姨娘的人示意了一下自己手中的婴儿,似乎有些犹豫,“这好歹是个男孩,现在夫人已经死了,如果姨娘把他占为己有,然后得了这府中的中馈······”“嬷嬷?!”女子也不等她的话说完,就打断了她,“你记住了,我恨死了这个女人,她的儿子,只能随着她去,我就是以后自己生不出儿子,抱养别人的,也不会要她的。把他给我扔马桶里面溺了,对外就说一出生就死了!”猩红的嘴唇,吐出来的话却是格外的渗人。嬷嬷还想说什么,动了动嘴,却是一句话也没有说,转身朝着后面放着马桶的地方走去。却是没有发现旁边地上一个穿着有些破旧的衣服的小女孩此刻正瞪大了眼睛看着她们两。这是什么情况?自己不是被炸死了吗?怎么会······于此同时,脑中不断有记忆闪现出来,她们是自己的母亲和刚出生的弟弟啊?!不行,先救人。转头看见旁边谁绣花留下的针线跟剪刀,想到自己前世的身手,拿起一根绣花针就朝着那个嬷嬷飞了过去,却在半路上掉落下来,暗骂一声,这人是什么破身体。却引得那两个人听见动静看了过来。女人阴狠的盯着她,“你居然没有死?”微微眯起眼睛,自己的前身也是被她们弄死的了,看样子她们谁也不会放过,抓起旁边的剪刀就冲了过去。随着几声惨叫声,从此以后,府中府外都传遍了她的“美名”——凤家大小姐心肠歹毒,刺伤了府中无数的人,宛如一个疯子。
  • 天苍黄

    天苍黄

    天地不仁以万物为刍狗!圣人不仁以百姓为刍狗!死里逃生,脱胎换骨。仇人,藏于九地之下!江湖,朝堂,何处寻觅?江湖隐士,遁世仙门,门阀世家,纷纷粉墨登场,数千年前的隐秘被揭开。天道何在!爱恨情仇,如何选择?.........这其实是个复仇的故事,发生在山雨欲来的大晋,搅动风雨的柳寒,则多了一段异世的记忆。糊涂书友群:群1:50219094,群2:201108312
  • 倚世冰皇

    倚世冰皇

    剑客风流游大陆,圣手书生吟游赋;南疆老鬼北疆狼,傲天冰皇东土铸;他人争风怒比武,我怀佳人仰月幕;恶魔鬼怪相竞出,手执冰皇各种屠。
  • 李嘉诚谈商录

    李嘉诚谈商录

    972年,1928年7月29日出生于广东省潮安县。其父李云经病逝。1940年。为躲避日本侵略者的压迫。全家逃难到香港。为了养活母亲和三个弟妹,他被迫放弃学业到一家茶楼工作。1943年,长江实业在香港成功上市。1979年,长江实业收购老牌英资商行和记黄埔。李嘉诚成为第一个收购英资商行的华人。1957年,创立长江工业有限公司。1980年,成立李嘉诚基金会。从此积极投身公益事业。1981年,李嘉诚,创办汕头大学。1950年,白手起家创办长江塑胶厂。1985年,出任汇丰银行董事局非执行副董事长