登陆注册
3133300000002

第2章 身处数据时代,揭开大数据的面纱(1)

科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置。越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富。大数据时代伴着铿锵有力的节奏引领了世界的新潮流。

大数据到底是什么?

如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及apache org的开源项目Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。

研究机构Gartner曾给大数据(Big data)下过这样的定义:大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。

大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》(James ,2011)是这么定义“大数据”的:

大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。这个定义也有很强的主观色彩,因为究竟什么样规格的数据才是大数据,这没有统一的标准,也就是无法确定超过多少TB(1000GB)的数据才是大数据。随着时间的推移和技术的发展,我们必须知道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以,现有各行业的大数据可以是几十TB,也可以是几千TB。

按照EMC的界定,特指的大数据一定是指大型数据集,规模大概在10TB。通过多用户将多个数据集集合在一起,能构成PB的数据量。

在IBM2011IOD大会上,负责IBM软件和硬件两大集团的高级副总裁Steve Mills曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞争的优势,要将其转换为生存的根本。”

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM公司对大数据所概括出的三个V,其实也说明大数据潜藏的另一个V——价值(Value)。就这么说的话,大数据确实具备这四个V的基本特征。

大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于1024B,就是千字节。除此之外还有更高的单位MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zetta byte,泽它字节)和YB(Yotta byte,尧字节)。每一级之间的换算关系是1024。到了2009年,几乎每一个美国企业,只要是雇员人数超过1000人的,它的数据存储量大概都超过了200TB,这是十年前沃尔玛公司数据仓库存储量的2倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了1PB。2010年欧洲组织的存储总量大概为11EB,这个数字几乎是整个美国数据总量(16EB)的70%。2010年全球企业在硬盘上的数据存储量已经超过了7EB,而在PC和笔记本电脑等设备上的个人存储量也超过了6EB。美国国会图书馆当时存储的数据大概只是1EB的4000分之一(James,2011)。硬件技术的发展速度远远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们90%的数据给处理掉(这其中包括几乎所有在手术过程中产生的实时视频和图像资料)。

只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的,这就是第二个V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的Excel软件中处理的数据,这称为结构化数据。可是现在随着互联网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是63%,相对而言结构化数据增长率只有32%。2012年,非结构化数据在整个互联网数据中的占比已经超过了75%。

Informatica中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。

简而言之,三种主要技术趋势汇聚成了大数据:其一是海量交易数据,包括半结构化和非结构化信息,在从ERP应用程序到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更为复杂的局面。其二是海量交互数据。因为Facebook、Twitter、LinkedIn以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件,等等。其三就是海量数据处理。随着大数据的涌现,已经有很多用于密集型数据处理的架构应运而生,比如Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。它之所以可靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop也是可伸缩的,PB级的数据它也可以处理。另外,Hadoop因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。对企业来说,最难的在于如何通过成本效益的方式从Hadoop中存取数据。Hadoop最知名的用户是脸谱。通过Hadoop,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得较高的收益。

“大”是重点,还是“数据”是重点?

先来做一个小测验。当阅读开始前,先停下来思考这么一个问题:哪部分是术语“大数据”中最为重要的?是大,还是数据?还是二者都一样重要,或是都一样不重要?花一分钟的时间去思考这个问题。假如已经有了自己的答案,那就开始阅读接下来的内容。

既然答案已经有了,那就来看看哪个是正确的?显然,正确的答案应该是最后一个,事实上在大数据中,“大”和“数据”都不重要。其中最重要的是企业该如何去驾驭这些大数据。对大数据进行分析,以及在此基础上采取的业务改进才是最为关键的。

事实上,大数据本身是没有任何价值可言的。即便是一个人比另一个人拥有更多的数据,这也不代表什么。任何一个数据集,它们或大或小,本身都没有价值可言。如果不懂得如何去使用收集来的数据,那这些数据不会比地下室里的垃圾更有用。要是不投入环境或者是付诸使用的话,数据的意义就不在了。任何大量或是少量的大数据该如何体现自己的威力呢?要怎么去分析这些数据呢,又该如何去洞察或是采取什么样的行动呢?这些数据又要如何来改进业务呢?

很多人在阅读了众多炒作大数据的文章之后就相信之所以大数据要比其他数据有优势,就在于它的容量大、速度快和多样性,这种说法并不准确。在很多大数据当中,相比以往数据会存在更多毫无价值或是价值很小的数据。一旦大数据被精简到实际需要的容量时,它们所呈现出来的就不是大数据了。事实上这也不重要,无论是它被精简还是保持原本庞大的模样,这些关系都不大,最重要的是处理它的方式。所以说使用数据要比起它的容量更为重要。

大数据庞大的规模并非人们所关注的,包括它们能带来巨大的内在价值也非关注的事实。最大的价值还在于分析的方式,以及采用什么样的方式来改进自己的业务。

在人们阅读一本书的时候,关键点的第一个是大数据的大数据量,并且要承认大数据也是数据中的一种。只不过这并非企业兴奋的理由所在。这些数据使用时的新颖且强大的分析方式才是企业注意力集中的地方。作为社交网络应用的Facebook和微博,都构建了关联普遍用户的行为数据。人们在网络上浏览网页、购买商品、游戏休闲原本是不关联的。当智能手机推广普及之后,网络的行为越来越碎片化了。假设没有一定的关联,就很难去分析和利用这些数据。社交网络提供给用户统一的接口,让无论是玩游戏还是买商品的客户可以轻松地把碎片化的信息发到网络上。就像是一个用户行为数据连接器的角色一样,微博把所谓网络上用户的行为,完整地关联起来,画出一幅生动的网络生活图景,把用户的偏好、性格、态度等特征真实地反映出来,而这当中就是最为充分的商业机会。

彼此关联的数据价值要远大于孤立的数据。可是在当下数据孤岛是很常见的。个人计算机中的文件一般都会以某种类目来存放,内容和内容之间没太强的联系。企业之间也是如此,很多部门之间都壁垒林立,似乎每个人都愿意去保护自己的数据,从而形成“数据割据”的局面。只要是处在数据孤岛中,大数据所潜在的价值是很难被挖掘出来的。

与众不同的大数据

有别于传统数据源的大数据有不少重要的特征,不是每个大数据源都有这些特征存在,绝大多数的大数据或多或少地都存在一些这样的特征。

第一个特征是大数据的来源往往是机器自动的结果。人工不会干涉到新数据的产生过程,完全是机器自动的结果。如果拿传统数据源进行分析的话,就会发现它们的形成过程中会有人工的痕迹,像是零售业和银行交易、电话呼叫记录、产品发票等等,和某个人做的事情都有关系,无论什么情形,都会有人参与到新数据的形成过程中。可是大数据不是这样产生的,它不会在产生过程中与人互动,像是引擎中内置的传感器,即便没有人干预周围数据也会自动生成。

第二个特征是大数据作为一个全新的数据源,不仅仅是已有数据的收集扩展,比如在互联网中,顾客与银行、零售商之间可以直接在线交易。事实上这种交易方式和传统交易差异不大,不过是换一种渠道而已。企业通过收集网络交易数据就会发现这样情形下的数据和多年来他们得到的传统数据差异不大,不过是数量增加了而已。如果收集的是客户浏览行为的数据,那就会产生本质上全然不同的数据。

上面提到的相同类型数据,不过是数量多了的说法也会因为达到另一个极端,成为最新的数据,比如说传统读电表都是人工方式,也就是说自动读取用电数据的智能电表所产生的数据就是类型相同,不过是数量增加了。不过这种数据在某种程度上也能成为一种有别于人工读取的数据,应用更为深层次的分析方式,这样一来它们就可以称作是新的数据源。

第三个特征是大数据中的大多数设计并非友好。实际上这些数据并未经过设计。就拿社交媒体网站上的文本流举例,用户不一定会被要求用标准的语序、语法和词汇表。人们的信息一经发布,社交平台就能够获得数据。这些不太规范的数据处理起来还是有一定困难的。在设计之初,大多数的传统数据都尽量要友好一些,就比如收集交易信息的系统最早生成数据会以整洁或是预先规范的方式来操作,这样形成的数据就更有利于加载和使用。还有一部分原因是由于要对空间进行高效利用,以避免出现空间不够的局面。

大数据有时候还会是凌乱和丑陋的。通常最开始传统数据就已经被严格地定义。每一比特的数据都存在重要的价值,这是必需的。一般大数据源一开始不会被严格定义,这和存储空间的开销越来越微乎其微有关,必须对各种有用的信息进行收集。所以说大数据分析的时候,各种凌乱丑陋的数据都有可能遇见。

最后的特征是海量数据并非有大量价值。实际的数据很多都是毫无价值的。在一篇网页日志当中,非常重要的数据就包含其中,当然也有好多没价值的数据也在其中。很有必要从中提炼最有价值的部分。定义传统数据源的起初就要求数据是百分百有用。这是因为可扩展性受到了限制,所以如果有没价值的信息在当中的话代价会非常昂贵。除了最初定义的有数据记录的格式外,数据内容和价值也被定义和约束了。当下存储空间的问题已经不存在了。大数据所收集的是所有的信息,然后再去解决这些冗余信息所带来的问题。只有这样才会不遗漏所有的信息,与此同时在分析数据时的麻烦也会让人头疼不已。

同类推荐
  • 一本书读懂大数据

    一本书读懂大数据

    本书是深入研究互联网思维的经典之作,从互联网思维的定义到互联网思维应用的具体案例表现。作者深入浅出、条分缕析,全面阐述互联网思维的内核与精神,逐一点评当前关于互联网思维的各种观点。本书从最初级的互联网思维应用到高端的粉丝经济,平台建设,自媒体营销的方法都有详细讲解介绍。让读者了解什么是互联网思维的同时还能学会把互联网思维运用到自己的工作学习已经生活中。
  • 体感交互技术

    体感交互技术

    本书提出了体感计算的研究,探讨了基于体验性认知的个性化电子学习方式,并且分析了面向儿童的艺术创造体验,在体感虚拟化身的帮助下,用户可以通过身体运动,促进情感心智的全面发展,
热门推荐
  • 影响中国学生的经典成语故事之一

    影响中国学生的经典成语故事之一

    成语是语言中经过长期使用、锤炼而形成的固定短语,它是比词的含义更丰富而语法功能又相当于词的语言单位,而且富有深刻的思想内涵,简短精辟易记易用。并常常附带有感情色彩,包括贬义和褒义,当然,也有中性的。“影响中国学生的经典成语故事”汇集了众多的成语,详细地讲解了其释义及相关出处,使读者在增长知识的基础上、享受阅读带来的乐趣。
  • 楚汉之争

    楚汉之争

    《楚汉之争》在深入挖掘和整理中华优秀传统文化成果的同时,结合社会发展,注入了时代精神。书中优美生动的文字、简明通俗的语言、图文并茂的形式,把中国文化中的物态文化、制度文化、行为文化、精神文化等知识要点全面展示给读者。点点滴滴的文化知识仿佛颗颗繁星,组成了灿烂辉煌的中国文化的天穹。
  • 嫡女棣王妃

    嫡女棣王妃

    “姨娘,夫人似乎断气了~”“哼!这么一碗药都下去了,难道她还能活着不成?”“那这······”一个年纪稍长的人朝着这位称作姨娘的人示意了一下自己手中的婴儿,似乎有些犹豫,“这好歹是个男孩,现在夫人已经死了,如果姨娘把他占为己有,然后得了这府中的中馈······”“嬷嬷?!”女子也不等她的话说完,就打断了她,“你记住了,我恨死了这个女人,她的儿子,只能随着她去,我就是以后自己生不出儿子,抱养别人的,也不会要她的。把他给我扔马桶里面溺了,对外就说一出生就死了!”猩红的嘴唇,吐出来的话却是格外的渗人。嬷嬷还想说什么,动了动嘴,却是一句话也没有说,转身朝着后面放着马桶的地方走去。却是没有发现旁边地上一个穿着有些破旧的衣服的小女孩此刻正瞪大了眼睛看着她们两。这是什么情况?自己不是被炸死了吗?怎么会······于此同时,脑中不断有记忆闪现出来,她们是自己的母亲和刚出生的弟弟啊?!不行,先救人。转头看见旁边谁绣花留下的针线跟剪刀,想到自己前世的身手,拿起一根绣花针就朝着那个嬷嬷飞了过去,却在半路上掉落下来,暗骂一声,这人是什么破身体。却引得那两个人听见动静看了过来。女人阴狠的盯着她,“你居然没有死?”微微眯起眼睛,自己的前身也是被她们弄死的了,看样子她们谁也不会放过,抓起旁边的剪刀就冲了过去。随着几声惨叫声,从此以后,府中府外都传遍了她的“美名”——凤家大小姐心肠歹毒,刺伤了府中无数的人,宛如一个疯子。
  • 男儿国的傻公主

    男儿国的傻公主

    物以稀为贵,人也是如此。男儿国的女人,就成了稀有珍宝。男儿国的公主,日子就格外的逍遥自在了。只是,女子少,子孙后代的延续,就成了一个问题。公主殿下,请带领着我国众绝色美男,勾引那国外的女人来生娃娃吧!
  • 绝密军队2九天之城

    绝密军队2九天之城

    传说中南诏古国的开国之秘,地下九天之城的诡异神奇,南诏人信奉的精灵之神……在云南腾冲神秘的火山洞穴中,我和战友们再次经历了不可思议的神奇历程,只存在于南诏古国传说中九天之城的神奇诡异,遭遇上古生物龙和凤凰,揭秘古南诏国兴衰之谜……继绝密军队在九天之城探秘的结局又会是怎样一场意外?
  • 傻子王爷无情妃

    傻子王爷无情妃

    一只毒蝎子,彻底断送了她年轻的生命!别人只知道,那个软弱没主见的女人被迫嫁给一个痴傻呆闷的七皇子。殊不知,她早已不再是“她”!面对痴傻只会憨笑的美男,她气愤难填!你傻,本美女就医好你,谁知医好后,遭到嫌弃,却换来一纸休书,气愤之下,她恨不得与他同归于尽……
  • 极品女帝-

    极品女帝-

    简单说来,这是一个无赖女主在女尊世界当昏君、霸美男、夺天下的故事。啥?为什么要当昏君?你想想,圣贤明君多累呀,清晨五点就要早朝,军队税负官员百姓什么都要管,管不好就要被骂,批奏折批到半夜三更,找个美男侍寝还得被说荒淫!这日子是人过的吗?她可不想年纪轻轻就过劳死…昏君就不同啦,嘿嘿~睡觉睡到自然醒,数钱数到手抽筋,后宫美男三千人,十年正好轮一遍!这才是她江若梓想享受的生活嘛~于是,“轰隆”一个天雷,把她劈去了理想世界…咦咦,当个圣贤明君不容易,怎么要当个昏君还那么困难啊!内有两个妹妹虎视眈眈盯着她的女皇宝座,外有三个国家磨刀霍霍,觊觎着她的土地,就连后宫里一个个惊天动地的大美人,都威胁利诱逼着她超时勤务…行了行了!本姑娘先大发雌威,把影响她当昏君的因素全铲除了总行吧!篡位的,去地下篡小阎王的位!敌国的,把土地统统交出来,放你们去当逍遥王!逼着她当明君的,统统去坐穿牢底吧!美男们…乖乖地洗干净了在后宫等着~~~风云变色,繁华落尽…江若梓一手抱美男,一手抱美食…嗯,还是当昏君好呀!注:本文文风偏正剧,女主无赖+流氓,绝对不弱,女尊、男生子、一女多男,不能接受者慎入,由此引发的一切后果青墨不承担医药费及赔偿~O(∩_∩)O~☆★☆保证每天至少一更,偶尔会有爆发,可以放心收藏哦☆★☆★☆★想和青墨聊天谈论文文的也可以加我Q:1093752412,敲门砖是文中你喜欢的男主名字★☆★推荐青墨的女尊完结V文《凤唳九霄》:【现代女将军穿越到女尊世界坐拥江山美男的风流艳史。】推荐我家亲亲子颜滴新文《扑倒美人相公》:【天降美男,如此极品,怎可放过?扑倒之!】推荐伊人新文《谁咬了朕的丑妃》:【《百变闺秀》之后的又一佳作,不看后悔啊!】推荐好友微诺女尊新文《女帝凤弦》:【拥有半个灵魂的女子,穿越为天下苍生的主宰】青墨和子颜、伊伊、渺渺、雪雪、兮兮共同的圈子【饿狼传说】,欢迎加入:http://m.pgsk.com/
  • 俏丫头穿越:朕的俏男妃

    俏丫头穿越:朕的俏男妃

    (女主先弱后强)千薰吐血而亡,却是一魂一魄回归原体,没想到原体的主人,却是一个坐拥七名男妃的白痴公主。七个男妃心怀鬼胎,潜伏在白痴公主的身边,意欲何为?看似甜蜜,却阴谋重重;看似忠诚,却居心叵测;火爆的他说,白痴公主,你想缠死我吗?冷傲的他说,“冷风凌生是公主的人,死是公主的鬼。”孩子般的他说,“小薰薰,千万不能和之白兄圆房哦……他们都想得到她所拥有的东西,可是却不如人愿,当风浪过后……多少年过去了,物是人非,她已成了王,而她的身边,男妃几个,到底谁,又是真心的,重生之女,猎爱无穷,一出女尊的多姿多彩的宫廷大戏开始了……小纪新文《黑道痴缠爱①:妖邪总裁迷糊小养女》,大家多多支持哈
  • 赢在责任

    赢在责任

    世界五百强金牌员工的成长法则,阿里巴巴、百度等知名企业的优秀员工吐血推荐。赢在责任,就是赢在职场。责任是员工与企业缔造双赢的关键;责任是员工在职场获得成长、实现个人价值的关键;如何培养、树立、增强内心的责任感?本书将告诉你答案。
  • 艺术家成长故事(激励学生成长的名人故事)

    艺术家成长故事(激励学生成长的名人故事)

    名人故事,流芳百世,传世名言,启迪心智。《艺术家成长故事》精选了中外历史上最具有代表性的艺术家,如马神仙马致远、牧童画家王冕、风流才子唐伯虎、书法家祝枝山、辛酸泪笔化巨著曹雪芹、扬州怪才郑板桥、我以我血荐轩辕鲁迅、武林至尊金庸、一代宗师齐白石、京剧大师梅兰芳、一代画才徐悲鸿、国画大师张大千、浩瀚星海冼星海、贝多芬、早逝的音乐天才莫扎特、柴科夫斯基、钢琴诗人肖邦、天才多产作曲家亨德尔等,讲述他们在各个领域的成才故事,总结和提炼他们成才的启示与“秘诀”。