登陆注册
3133300000002

第2章 身处数据时代,揭开大数据的面纱(1)

科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置。越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富。大数据时代伴着铿锵有力的节奏引领了世界的新潮流。

大数据到底是什么?

如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及apache org的开源项目Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。

研究机构Gartner曾给大数据(Big data)下过这样的定义:大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。

大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》(James ,2011)是这么定义“大数据”的:

大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。这个定义也有很强的主观色彩,因为究竟什么样规格的数据才是大数据,这没有统一的标准,也就是无法确定超过多少TB(1000GB)的数据才是大数据。随着时间的推移和技术的发展,我们必须知道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以,现有各行业的大数据可以是几十TB,也可以是几千TB。

按照EMC的界定,特指的大数据一定是指大型数据集,规模大概在10TB。通过多用户将多个数据集集合在一起,能构成PB的数据量。

在IBM2011IOD大会上,负责IBM软件和硬件两大集团的高级副总裁Steve Mills曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞争的优势,要将其转换为生存的根本。”

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM公司对大数据所概括出的三个V,其实也说明大数据潜藏的另一个V——价值(Value)。就这么说的话,大数据确实具备这四个V的基本特征。

大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于1024B,就是千字节。除此之外还有更高的单位MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zetta byte,泽它字节)和YB(Yotta byte,尧字节)。每一级之间的换算关系是1024。到了2009年,几乎每一个美国企业,只要是雇员人数超过1000人的,它的数据存储量大概都超过了200TB,这是十年前沃尔玛公司数据仓库存储量的2倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了1PB。2010年欧洲组织的存储总量大概为11EB,这个数字几乎是整个美国数据总量(16EB)的70%。2010年全球企业在硬盘上的数据存储量已经超过了7EB,而在PC和笔记本电脑等设备上的个人存储量也超过了6EB。美国国会图书馆当时存储的数据大概只是1EB的4000分之一(James,2011)。硬件技术的发展速度远远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们90%的数据给处理掉(这其中包括几乎所有在手术过程中产生的实时视频和图像资料)。

只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的,这就是第二个V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的Excel软件中处理的数据,这称为结构化数据。可是现在随着互联网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是63%,相对而言结构化数据增长率只有32%。2012年,非结构化数据在整个互联网数据中的占比已经超过了75%。

Informatica中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。

简而言之,三种主要技术趋势汇聚成了大数据:其一是海量交易数据,包括半结构化和非结构化信息,在从ERP应用程序到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更为复杂的局面。其二是海量交互数据。因为Facebook、Twitter、LinkedIn以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件,等等。其三就是海量数据处理。随着大数据的涌现,已经有很多用于密集型数据处理的架构应运而生,比如Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。它之所以可靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop也是可伸缩的,PB级的数据它也可以处理。另外,Hadoop因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。对企业来说,最难的在于如何通过成本效益的方式从Hadoop中存取数据。Hadoop最知名的用户是脸谱。通过Hadoop,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得较高的收益。

“大”是重点,还是“数据”是重点?

先来做一个小测验。当阅读开始前,先停下来思考这么一个问题:哪部分是术语“大数据”中最为重要的?是大,还是数据?还是二者都一样重要,或是都一样不重要?花一分钟的时间去思考这个问题。假如已经有了自己的答案,那就开始阅读接下来的内容。

既然答案已经有了,那就来看看哪个是正确的?显然,正确的答案应该是最后一个,事实上在大数据中,“大”和“数据”都不重要。其中最重要的是企业该如何去驾驭这些大数据。对大数据进行分析,以及在此基础上采取的业务改进才是最为关键的。

事实上,大数据本身是没有任何价值可言的。即便是一个人比另一个人拥有更多的数据,这也不代表什么。任何一个数据集,它们或大或小,本身都没有价值可言。如果不懂得如何去使用收集来的数据,那这些数据不会比地下室里的垃圾更有用。要是不投入环境或者是付诸使用的话,数据的意义就不在了。任何大量或是少量的大数据该如何体现自己的威力呢?要怎么去分析这些数据呢,又该如何去洞察或是采取什么样的行动呢?这些数据又要如何来改进业务呢?

很多人在阅读了众多炒作大数据的文章之后就相信之所以大数据要比其他数据有优势,就在于它的容量大、速度快和多样性,这种说法并不准确。在很多大数据当中,相比以往数据会存在更多毫无价值或是价值很小的数据。一旦大数据被精简到实际需要的容量时,它们所呈现出来的就不是大数据了。事实上这也不重要,无论是它被精简还是保持原本庞大的模样,这些关系都不大,最重要的是处理它的方式。所以说使用数据要比起它的容量更为重要。

大数据庞大的规模并非人们所关注的,包括它们能带来巨大的内在价值也非关注的事实。最大的价值还在于分析的方式,以及采用什么样的方式来改进自己的业务。

在人们阅读一本书的时候,关键点的第一个是大数据的大数据量,并且要承认大数据也是数据中的一种。只不过这并非企业兴奋的理由所在。这些数据使用时的新颖且强大的分析方式才是企业注意力集中的地方。作为社交网络应用的Facebook和微博,都构建了关联普遍用户的行为数据。人们在网络上浏览网页、购买商品、游戏休闲原本是不关联的。当智能手机推广普及之后,网络的行为越来越碎片化了。假设没有一定的关联,就很难去分析和利用这些数据。社交网络提供给用户统一的接口,让无论是玩游戏还是买商品的客户可以轻松地把碎片化的信息发到网络上。就像是一个用户行为数据连接器的角色一样,微博把所谓网络上用户的行为,完整地关联起来,画出一幅生动的网络生活图景,把用户的偏好、性格、态度等特征真实地反映出来,而这当中就是最为充分的商业机会。

彼此关联的数据价值要远大于孤立的数据。可是在当下数据孤岛是很常见的。个人计算机中的文件一般都会以某种类目来存放,内容和内容之间没太强的联系。企业之间也是如此,很多部门之间都壁垒林立,似乎每个人都愿意去保护自己的数据,从而形成“数据割据”的局面。只要是处在数据孤岛中,大数据所潜在的价值是很难被挖掘出来的。

与众不同的大数据

有别于传统数据源的大数据有不少重要的特征,不是每个大数据源都有这些特征存在,绝大多数的大数据或多或少地都存在一些这样的特征。

第一个特征是大数据的来源往往是机器自动的结果。人工不会干涉到新数据的产生过程,完全是机器自动的结果。如果拿传统数据源进行分析的话,就会发现它们的形成过程中会有人工的痕迹,像是零售业和银行交易、电话呼叫记录、产品发票等等,和某个人做的事情都有关系,无论什么情形,都会有人参与到新数据的形成过程中。可是大数据不是这样产生的,它不会在产生过程中与人互动,像是引擎中内置的传感器,即便没有人干预周围数据也会自动生成。

第二个特征是大数据作为一个全新的数据源,不仅仅是已有数据的收集扩展,比如在互联网中,顾客与银行、零售商之间可以直接在线交易。事实上这种交易方式和传统交易差异不大,不过是换一种渠道而已。企业通过收集网络交易数据就会发现这样情形下的数据和多年来他们得到的传统数据差异不大,不过是数量增加了而已。如果收集的是客户浏览行为的数据,那就会产生本质上全然不同的数据。

上面提到的相同类型数据,不过是数量多了的说法也会因为达到另一个极端,成为最新的数据,比如说传统读电表都是人工方式,也就是说自动读取用电数据的智能电表所产生的数据就是类型相同,不过是数量增加了。不过这种数据在某种程度上也能成为一种有别于人工读取的数据,应用更为深层次的分析方式,这样一来它们就可以称作是新的数据源。

第三个特征是大数据中的大多数设计并非友好。实际上这些数据并未经过设计。就拿社交媒体网站上的文本流举例,用户不一定会被要求用标准的语序、语法和词汇表。人们的信息一经发布,社交平台就能够获得数据。这些不太规范的数据处理起来还是有一定困难的。在设计之初,大多数的传统数据都尽量要友好一些,就比如收集交易信息的系统最早生成数据会以整洁或是预先规范的方式来操作,这样形成的数据就更有利于加载和使用。还有一部分原因是由于要对空间进行高效利用,以避免出现空间不够的局面。

大数据有时候还会是凌乱和丑陋的。通常最开始传统数据就已经被严格地定义。每一比特的数据都存在重要的价值,这是必需的。一般大数据源一开始不会被严格定义,这和存储空间的开销越来越微乎其微有关,必须对各种有用的信息进行收集。所以说大数据分析的时候,各种凌乱丑陋的数据都有可能遇见。

最后的特征是海量数据并非有大量价值。实际的数据很多都是毫无价值的。在一篇网页日志当中,非常重要的数据就包含其中,当然也有好多没价值的数据也在其中。很有必要从中提炼最有价值的部分。定义传统数据源的起初就要求数据是百分百有用。这是因为可扩展性受到了限制,所以如果有没价值的信息在当中的话代价会非常昂贵。除了最初定义的有数据记录的格式外,数据内容和价值也被定义和约束了。当下存储空间的问题已经不存在了。大数据所收集的是所有的信息,然后再去解决这些冗余信息所带来的问题。只有这样才会不遗漏所有的信息,与此同时在分析数据时的麻烦也会让人头疼不已。

同类推荐
  • 一本书读懂大数据

    一本书读懂大数据

    本书是深入研究互联网思维的经典之作,从互联网思维的定义到互联网思维应用的具体案例表现。作者深入浅出、条分缕析,全面阐述互联网思维的内核与精神,逐一点评当前关于互联网思维的各种观点。本书从最初级的互联网思维应用到高端的粉丝经济,平台建设,自媒体营销的方法都有详细讲解介绍。让读者了解什么是互联网思维的同时还能学会把互联网思维运用到自己的工作学习已经生活中。
  • 不懂PowerPoint就当不好经理

    不懂PowerPoint就当不好经理

    经理人如何用PowerPoint,来规划部门的发展,如何用PowerPoint来表达自己的经营主张?本书为各类经理人提供了从入门到提高,从原理到实战的一系列知识,相信本书将让演示文稿为经理人的管理效能加分!
热门推荐
  • 傻子王爷无情妃

    傻子王爷无情妃

    一只毒蝎子,彻底断送了她年轻的生命!别人只知道,那个软弱没主见的女人被迫嫁给一个痴傻呆闷的七皇子。殊不知,她早已不再是“她”!面对痴傻只会憨笑的美男,她气愤难填!你傻,本美女就医好你,谁知医好后,遭到嫌弃,却换来一纸休书,气愤之下,她恨不得与他同归于尽……
  • 捡了个萌宠带回家

    捡了个萌宠带回家

    新书已发《原来你喜欢我呀》失恋第一天,被他捡回家,好吧,先暂住一下!只是……大神,我们熟吗?只不过是友情客串一下你的女朋友,帮你撑个场面,就当做是报答在你这白吃白住之恩,你怎么就能真的这么亲密、亲切、又亲热呢?“大神,我们这样肆无忌惮地秀恩爱真的好吗?毕竟不是真的情侣啊……”“我们什么时候不是真的情侣了?”啊?什么时候?她……她也不知道啊……这是假戏真做了吗?
  • 开心国学

    开心国学

    本书以儒家、道家及诸子百家思想为立足点,从《论语》、《孟子》、《中庸》等儒家学派的代表作中,选取其关于学习、立志方面的名句加以分析解读,为青少年提供学习的方法,引导他们树立坚定、自信的信念,从小奋发图强;从道家学派的主要代表作品中,精选出帮助青少年加强自我修养,提高综合素质的内容,引导孩子正确对待人生,提高思想觉悟,激发民族自豪感、爱国热情和社会责任感,并培养和塑造独立自主,奋发向上、团结友爱的人格和价值取向;从《孙子兵法》、《墨子》、《韩非子》等诸子名家作品中,选取名句加以分析解读,为青少年处理日常生存问题,提供指导和借鉴。
  • 涅槃血:下堂少奶奶【完本】

    涅槃血:下堂少奶奶【完本】

    安青的坚持,冷幼蓉,以残花败柳之身嫁入皇甫家。公公视她如苍蝇,丈夫看她有了心理阴影,对她好的婆婆却性格懦弱。比她小两岁的小叔子,多次出手相帮,可惜,不过是个庶出的孩子,在家总是没有发言权。一次酒醉,丈夫弄进一个大肚小妾。一次生意,意外相遇故人,却引来一系列误会~到最后,深深潭水边,又有哪个女子会被沉下?我无法决定故事的开头,那么,不如连结局都不要罢……——本文非悲剧,后期女主灰常强大,结局会出乎意料,喜欢的亲亲收藏投P撒花~
  • 绝世惊华:逆天薄情妃

    绝世惊华:逆天薄情妃

    “我爱你,但是从明天起,你就是敌国京城第一头牌。”他眸底竟是冰冷而凉薄。她冷笑,“我不配让你这样尊贵的人爱!”他残忍地笑了。皇上,想爱我可以,拿出诚意来,想卖我,你就滚开!【女主从弱变强文】
  • 锦绣婚途:误惹纨绔痞少

    锦绣婚途:误惹纨绔痞少

    “唐诗诗,我劝你聪明点,孵不出蛋来就别厚颜无耻的占着窝!”婆婆扶着一个怀孕的女人找上门,无限傲娇。唐诗诗看看上门女人微微隆起的肚子,又看看她身边小心伺候着的婆婆,最后将目光落在一旁抿着唇自始至终没有打算开口的男人身上,心冷成冰。三年自以为是的幸福婚姻在这一刻成了一场狗血而俗气的笑话。六年的感情最后换来的是薄薄的小小的轻轻的一张支票:一千万!那个男人因为金钱权势背叛了他们的感情,而她却因为背叛而挥霍了他的钱。这场交易--看起来也貌似公平!最可恨的不是你被挖倒了墙角,而是那无节操的一堵破墙恶劣的公然返身还想要左拥右抱!妻子变xx?亏他想的出来!叔叔同意了!婶婶也同意了!TMD!唐诗诗忍无可忍!既然忍不下去了,那只好学着残忍!前夫悲愤的说:“你竟敢背叛我!唐诗诗,你什么时候变得这么不要脸!”唐诗诗讥诮道:“脸是个什么玩意?我要它何用?”离婚女人门前是非多,情敌步步紧逼连环陷害;前夫不要脸的公然提出“回到我身边!”,妄图左拥右抱;情根深种的大学学长闻讯回国,虚怀以待;就连养父母的弟弟都跟她住到同一个屋檐下频频示好;结果有人更绝,直接将唐诗诗拉进民政局--扯证!吃一堑长一智,再入豪门的唐诗诗脱胎换骨,见招拆招,发誓将自己的爱情,捍卫到底!推荐妖的新文《误嫁豪门之小妻难逃》:《三生三世凤临天下》:
  • 傻子王爷无情妃

    傻子王爷无情妃

    一只毒蝎子,彻底断送了她年轻的生命!别人只知道,那个软弱没主见的女人被迫嫁给一个痴傻呆闷的七皇子。殊不知,她早已不再是“她”!面对痴傻只会憨笑的美男,她气愤难填!你傻,本美女就医好你,谁知医好后,遭到嫌弃,却换来一纸休书,气愤之下,她恨不得与他同归于尽……
  • 世界首富卡洛斯的赚钱奇谋

    世界首富卡洛斯的赚钱奇谋

    墨西哥的财富何故如此钟情于卡洛斯?他凭着什么能够如此自如地操纵财富,以至于让自己的腰包比比尔·盖兹的还鼓?本书将向你展示卡洛斯富有传奇色彩的理财和投资人生,带你追寻他问鼎财富的足迹,让你从中获得致富的启示。
  • 破局:打造人才供应链

    破局:打造人才供应链

    《破局:打造人才供应链》的主人公是一个长期为外企服务的HRD崔世波。因为职业发展遭遇瓶颈,崔世波离开了服务了整整20年的老东家BJ集团。而后,崔空降到一个民营企业,开始寻求职业发展新机遇。本文以时间为序,以空降兵到企业后逐步开展的人力资源体系变革为主线,一步步展示其人才供应链体系搭建的过程。这个过程,其实也是倍智团队为企业提供咨询和解决方案的过程,是解决人才供应链建设过程中面临的各种问题的过程。《破局:打造人才供应链》在写作过程中,大量使用了实际的案例和解决方案,对建设人才供应链各个环节所需要用到的各种理念、工具、方法都进行了详实的描述。
  • 变龙史

    变龙史

    筋脉堵塞不能练武的黄龙,巧遇龙家掌门人,又得龙家绝学《圣龙决》,从此飞龙上天,一发不可收拾!龙老爷子更将爱孙女龙秀许配与他,希望他将龙家绝学发扬光大!然而英雄爱美女,更爱江山!黄龙不甘于此,他始终坚信——命运,不能决定他的一生!他天生不是池中物,一遇机缘便化龙!