登陆注册
3133300000004

第4章 大数据如此重要,引无数英雄竞折腰(1)

在这个一秒钟就可能江山易主的大数据时代,获得最真实可靠的数据并进行准确的分析和预测是企业占得先机的重要条件。如何在数据上展开角力成为企业生存的核心问题,只有企业对大数据的“外貌”和“内涵”有详尽的了解和把握,企业才有可能在未来的发展中分得一杯羹。

多样的非结构性数据

在电影《黑客帝国》当中,主人公尼奥在服下了蓝色药丸之后,就发现所有在他身边的一切其实都是数字化的幻想而已,他的工作、伙伴、住的高楼,看到的天空大地,甚至于他的情绪都不例外。电影的创作自然可以天马行空,真实的物理世界尽管不是如此,但不可否认的是它也在朝着数字化的方向高速前进。

像是高楼大厦,在动工之前就会形成一个涵盖了设计、施工、维护等多方面的综合建筑信息模型,它所使用的就是三维建模技术。在消费者看来,人们绝对会因为建筑信息模型的美观大方而自掏腰包购买效果图;在地产商看来,建筑信息模型所透露出来的信息便是他们需要为整个过程投入多少;在设计师看来,整个模型清清楚楚地呈现了所有设计的综合,他们能够在当中调整管线走向和通风设计等等;在工人看来,模型就是他们的施工图;在消防部门看来,即便是尚未完工的建筑也可以通过模型来评估它的消防效果,并模拟人群疏散的动态情形。总之,这建筑的方方面面实际上都已经数字化了。

日常生活中人们所接触到的文件、照片、视频,还有海量的数据,都有大量的信息蕴含其中。此类数据的特点是共同的,尽管它们的大小、内容、格式和用途并不相通。拿最为常见的WORD文档举例就会发现,最为简单的文档可能就只有几行字而已,但是一旦插进了图片、音乐等多媒体内容就可以成为一个多媒体的文件,文章的感染力就会增强。这一类数据就是非结构性数据。

结构性数据与之相对应,在结构性数据中人们对于表格中的数据可以简单解释,因为结构都是相通的。每个人每个月所领到的工资条,工资条的结构就没有变化过,变化的只是里面的工资和个税、保险。个人的工资条排列在一起就形成了工资表。结构化数据的计算机处理技术已经成熟了,会计和审计可以很有效地利用Excel工具来进行加减乘除、汇总和统计等一类的任务。要是有大量运算存在的话,商业数据库就会使用上,它们的任务就是存储和处理这些结构性数据。

可是,日常生活中无论是企业数据还是日常数据,大部分都是非结构性的。有咨询机构调查显示非结构性的数据占到了整个企业数据量的80%,还有调查显示高达95%,这个数据暂时还没有权威、准确的统计。信息产业这么多年一直在努力的方向就是让非结构性的数据能和结构性数据一样获得便利、快捷的处理。可是他们总在走弯路,一开始人们希望用处理结构性数据的方式来处理非结构性数据。只是非结构性数据个体之间的差异太大,用统一的处理模式来硬套的话,结果显然是不会太好。因此人们有很长一段时间认为非结构性数据的处理难度很大。

幸运的是谷歌公司成了大数据处理技术的先驱,它为公众提供搜索服务的同时,把大量网页、文档等数据的快速访问难题也解决了。雅虎公司也有一个研发小组,在谷歌技术的基础上成功地开发了一整套处理大数据的程序框架,这就是大众所熟知的Hadoop。目前这个领域的技术发展很是快速。

以上这些公司的技术研发,让不少人在面对非结构性数据的处理问题上重新找回了自信,因此高清图像、视频等处理技术都进入了快速发展的时期。

社交网络上人们情绪表达方式也日渐丰富,企业为人们开发了众多表达心情的标准化图示,用以表达人们的各种复杂的情绪。

大数据的价值发掘

我们来说说银行、地铁中那些敏感部门或是地点的视频监控,凡摄像头的运转均为24小时,它势必会产生大量的视频数据。通常情况下的视频数据是枯燥乏味的,人们不会关心。但是一旦拍到了图谋不轨的行为,那么对于公安人员来说这视频就非常有价值了。可是事先人们不会知道哪一个部分有用,因此所有的视频材料都要保存下来,即便是存了一年的数据哪怕只有一帧对破案有用也是有价值的视频。不过对于研究人类行为的社会学家来说,这些视频都是非常珍贵的第一手材料,因为从中能发现人类的行为模式特点。

人们如今要获得医疗数据并非难事,手腕上的一块和电子表颇为类似的仪器就可以随时随地测量脉搏、体温和血压等等数据,再不断地将其传回医疗中心。数据除了能帮助人们检测自己的健康情况外,医疗保险公司也很是青睐这技术。保险公司的精算师依照这些数据的特点来研发新的保险产品,对他们现有的产品组合也是非常有帮助的。

上述的种种事例说明了:1.数据的价值是无可限量的;2.当然这价值犹如沙滩中的黄金一般需要挖掘;3.组合数据的价值要比单一种类的数据价值高得多。

在研究各行各业的数据应用中,会发现即使手中有一座如此大的宝藏,但挖掘工作仍是非常困难的,原因正是由于自身的数据中所蕴含的重生之道还不为人所知。互联网公司是最早意识到数据价值的公司,因此它们总在研究和分析领域领先。不过大数据的专利不再是属于大公司,它需要的是看待世界、产业的观念和视角。大公司通过它来合纵连横,扩张跨界,小公司也可以细水长流。关键问题在于如何看待大数据。

究竟多快才是快呢?

显然是小于1秒,就在分秒之间的客户体验。

传统数据应用和大数据应用之间的重要区别就在于此。十几年间,无论是电信还是金融行业都在经历着一场核心应用系统从分散到总部统一的过程。集中大量数据之后,所产生的第一个问题就是各类报表形成的时间延长了。业界在很长时间内都在质疑能否从海量增加的数据中快速地提取信息。

在这个领域,谷歌公司的贡献是有开创性的。谷歌的搜索引擎就仿佛在向信息业界宣布,全世界我那工业的搜索可以在1秒内完成,并得到所要得到的结果。大数据应用领域谷歌成了一个标杆。要是有超过1秒钟的数据应用的话,用户就会有不良的体验。下面举个营销方面的例子。

人们在购买越是昂贵的东西时就越是犹豫,会反复去掂量自己的购买能力。购买价格便宜的东西就越容易呈现出冲动购买的特征。根据消费者的购买特点,京东商城将其分为了四种类型,其中37%是冲动购买者。对于这类购物者来说,能够在冲动的一瞬间为其送上最为精准的商品信息,是商品销售中的关键因素。幸运的是,关于这一点,社交平台的出现,为调查人们的偏好和兴趣提供了一个极好的平台,也让大数据时代这种精准的营销成了可能。

股票市场的交易主要是高频交易,要比他人快0.02秒才能有惊人的收益。为了能比他人快20毫秒,有人特地建了一条横跨西海岸到东海岸的光纤,还有人索性就留在了纽交所所在的街区。由毫秒时间差所造成的商业机会,此后会因为大数据的普及而出现在众多行业当中。

很多以应急反应为主的新兴产业很注重时效性。他们如果了解到某工厂有了事故,就会在第一时间做出判断,评估影响范围,到达现场并展开处置。

互联网投资创业现在的热点领域是O2O。经过商家门口的消费者如果能即时收到商家的促销信息,无疑是最为美好的服务。此时的促销消息若是消费者正好需要的商品或是服务,人人都能从中获益。消费者节省了时间,商家商品得到销售,服务商也获得了佣金。如果所提供的促销信息非准确时间获得的,那就会演变成为最为恼人的垃圾信息。谁都不愿意在任何时间任何地方收到垃圾信息,而这两种信息的差别常常只是几秒钟的差异而已。

数据的活性越高就有越大的价值。曾经有一家公司提供了数据样本希望有人能帮他们来评估一下潜在的商业价值。数据量很大,更新频率也很高。这样的数据并非不常见,很多支付公司所收集到的交费记录常常都是如此。

数据的活性实际上就是数据的更新频率,更新频率越高的数据就有越大的活性,反之亦然。通常来说,数据集中的活性越大,就有越丰富的信息在其中。因此在大数据领域要有所成就的话,就要想办法去提高数据的活性。

对于公司的投资价值的判定,人们常常会听到这样的观点,公司是否拥有成规模和有活性的数据。之所以多样化和快速等特征不被提及,就因为人们更容易记住这一点。

大数据的结构化、非结构化、半结构化及多结构化

阅读大数据有关文章时,很多类似数据如何被结构化、非结构化、半结构化、多结构化的概念讨论会出现。通常大数据都是非结构性的,而传统数据是结构性的。只不过二者之间的差异并非绝对清晰。

应该说,大多数传统数据都是结构性的。这说明传统数据具有明确的、预先规范好的细节的格式等特点。任何一个时候出现的新数据都是以这样的模式呈现的。对股票交易来说,交易信息的第一部分格式就是月份/日期/年份等时间信息,然后就是12位的账户数字,接下来是3-5位字母所表示的股票代码。信息的格式事先就已经定好了,再由规范好的格式和顺序给出,这样的话处理起来就比较简单。

人们在面对非结构性的数据时,常常是没有控制权的,能做的就是接收它们。像是文本数据、视频数据、音频数据等等都是这样。图像是独立像素用特定的方式组合起来的,只不过组合的方式是千变万化的。完全非结构性的数据就是如此。事实上大多数的大数据应该算是半结构化的。

半结构性的数据还是具备可理解的逻辑流程和格式,只是这些格式并非对用户都表现出了友好的姿态。半结构性的数据从某种程度上也可以被称作是多结构性的数据。此类数据,大量无价值的数据包裹着有价值的数据。相同情况下,理解和分析半结构性的数据难度要大很多。因此要用一套复杂的规则来理解半结构性的数据,只有在读了每一条信息之后才能动态地决定处理方法。

半结构性数据中最典型的就是网络日志。人们看到网络日志时,会觉得很丑陋,事实上它们中的每一条信息都有特定的价值。

非结构性的大数据源并不常见,反倒是大量的半结构性数据和多结构性数据比较常见。它们拥有可理解的逻辑流程,从中能提取出能用于分析的信息。只不过要驾驭半结构化的数据,必须有时间的保障,这才是处理它们的最佳方式。

网络日志的信息是有逻辑的,尽管很多时候很难看出来。日志中字段和分隔符都是不同的,仿佛是结构性的数据一般,包含了大量的价值。只不过它们彼此间非以固定的方式相联系。不同网站上的网络日志点击所用的时间长短不一。另外,半结构性的数据要理解其内在的逻辑并非不可能的,只不过要花上一段时间才行。

分析专家似乎更怕非结构性数据,半结构性的数据对他们来说,要征服是需要付出努力的,而他们也能够做得到。分析专家首先要把半结构性的数据组织成结构性的,然后再在他们的分析流程中运用。而对于非结构性的数据来说,困难就会大很多。即便是已经征服了半结构性的数据,他们要面对非结构性的数据时还是会感觉是个巨大的挑战。

大数据是扩展性的下一代传统数据

关于大数据的各种言论作为为众人所关注的热点层出不穷,核心还是大数据要如何从根本上变革分析和使用大数据的方法。仔细思考一下,会发现事实并非如此。

关于庞大的大数据和它们的可扩展性已经不是个新鲜的话题。第一次使用新数据源的时候,通常会认定大数据是庞大的且很难使用的。事实上大数据不过是突破了当前极限,更大规模的数据罢了。分析专家对于传统数据源的掌握即便是有瓶颈的,但这也不影响其驾驭大数据源。毕竟分析专家从一开始就非常努力地在探索新数据源,并且将持续下去。

在电信公司中分析电话详单的第一人是谁?当然是分析专家。深入研究零售点销售数据并为此找到价值的第一人又是谁?当然也是分析专家。最初,分析几千个到几万个,甚至几十万个商品的数据被视为是一个巨大的难题。可是现在这一切已经迎刃而解。

最早开始做数据源分析的分析专家处理的数据便是在当时被认定为无法处理的数据。首先他们要做的是找到分析和利用的方法,并且是在当时的条件下。不少人对可行性产生质疑,还有人认为这些数据并非具有价值。

分析专家们正努力在做的事情和他们做事情的理由不会因为大数据而发生改变,即便从一开始很多分析专家会自称为数据科学家,可是他们的目标还是一致的。待解决的很多问题都涉及了大数据,这跟从前差别不大。最后分析专家和数据科学家们还是会去探索一直以来探索的事情的,并从中发现一些有价值的趋势和模式。必须强调的一点是,尽管大数据听起来很陌生,可是它所带来的挑战却无须畏惧。

不论从什么方面来说,大数据所产生的问题一定是从前出现过的。在数据分析领域,永恒的主题就是驾驭新的、可扩展性极限的大数据源。大数据不过是下一代的这种数据罢了。处理此类情况,分析师已经很是熟悉了。只要是有驾驭过其他数据经验的企业,大数据也同样可以驾驭。

分析专家的工作策略有一部分会因为大数据而改变。他们常常将新的工具、方法、技术和传统分析工具相结合,目的是为了有效地处理大数据流。要从中提取最有效的信息,复杂的过滤算法是十分必要的。当然也要更新建模和预测程序,大量的数据要输入添加到现有的输入当中去。

从根本上来说,分析的目标和流程并不因工作策略的改变而改变。大数据催生的是创新性的分析方法,分析专家也必须在继续扩展性的瓶颈下革新。可是必须承认的是,分析专家在处理大数据和以往数据时的方式差异不大。

是什么构成了大数据价值链?

依照所提供价值的来源(数据本身、技能和思维)不同,大数据公司可以分为三类。

同类推荐
  • 体感交互技术

    体感交互技术

    本书提出了体感计算的研究,探讨了基于体验性认知的个性化电子学习方式,并且分析了面向儿童的艺术创造体验,在体感虚拟化身的帮助下,用户可以通过身体运动,促进情感心智的全面发展,
  • 一本书读懂大数据

    一本书读懂大数据

    本书是深入研究互联网思维的经典之作,从互联网思维的定义到互联网思维应用的具体案例表现。作者深入浅出、条分缕析,全面阐述互联网思维的内核与精神,逐一点评当前关于互联网思维的各种观点。本书从最初级的互联网思维应用到高端的粉丝经济,平台建设,自媒体营销的方法都有详细讲解介绍。让读者了解什么是互联网思维的同时还能学会把互联网思维运用到自己的工作学习已经生活中。
  • 不懂PowerPoint就当不好经理

    不懂PowerPoint就当不好经理

    经理人如何用PowerPoint,来规划部门的发展,如何用PowerPoint来表达自己的经营主张?本书为各类经理人提供了从入门到提高,从原理到实战的一系列知识,相信本书将让演示文稿为经理人的管理效能加分!
热门推荐
  • 嫡女棣王妃

    嫡女棣王妃

    “姨娘,夫人似乎断气了~”“哼!这么一碗药都下去了,难道她还能活着不成?”“那这······”一个年纪稍长的人朝着这位称作姨娘的人示意了一下自己手中的婴儿,似乎有些犹豫,“这好歹是个男孩,现在夫人已经死了,如果姨娘把他占为己有,然后得了这府中的中馈······”“嬷嬷?!”女子也不等她的话说完,就打断了她,“你记住了,我恨死了这个女人,她的儿子,只能随着她去,我就是以后自己生不出儿子,抱养别人的,也不会要她的。把他给我扔马桶里面溺了,对外就说一出生就死了!”猩红的嘴唇,吐出来的话却是格外的渗人。嬷嬷还想说什么,动了动嘴,却是一句话也没有说,转身朝着后面放着马桶的地方走去。却是没有发现旁边地上一个穿着有些破旧的衣服的小女孩此刻正瞪大了眼睛看着她们两。这是什么情况?自己不是被炸死了吗?怎么会······于此同时,脑中不断有记忆闪现出来,她们是自己的母亲和刚出生的弟弟啊?!不行,先救人。转头看见旁边谁绣花留下的针线跟剪刀,想到自己前世的身手,拿起一根绣花针就朝着那个嬷嬷飞了过去,却在半路上掉落下来,暗骂一声,这人是什么破身体。却引得那两个人听见动静看了过来。女人阴狠的盯着她,“你居然没有死?”微微眯起眼睛,自己的前身也是被她们弄死的了,看样子她们谁也不会放过,抓起旁边的剪刀就冲了过去。随着几声惨叫声,从此以后,府中府外都传遍了她的“美名”——凤家大小姐心肠歹毒,刺伤了府中无数的人,宛如一个疯子。
  • 鬼吹灯II

    鬼吹灯II

    热播网剧《鬼吹灯之怒晴湘西》改编自本书!生死轮回的千古之迷,,消逝的千百年文明,尘封的古老遗迹,苍茫大地上盘伏着巨龙,守护这一切。大河滔滔、黄沙滚滚,还是沧海桑田,这里到底隐藏着什么?那些埋藏着的生命灵魂徘徊挣扎,永生之门的出口的通道究竟在哪里?一行人意外探索着这一切未知之谜,逐渐揭开隐藏其后的神秘传说。
  • 隐少房东

    隐少房东

    这本书讲述的就是他们之间那些感动温暖的故事。
  • 不是归人,只是过客

    不是归人,只是过客

    她只是个宅女为何苍天也不让她好过?她只是个宅女为何苍天也不让她好过?她明明就是为了救朋友而来的为何还要扯上这些幺蛾子什么的?其实——本文就是一个真正的宅得有滋有味的女子为救朋友而到了一个让她晕头转向的古代,有一个让她晕头转向的身份,最后晕头转向中发誓要找到朋友一起回家的故事。
  • 爬上墙头当红杏

    爬上墙头当红杏

    【全文三十万字,半价促销,某才首度尝试架空历史类小说,决定颠覆女尊架空潮流,走男强女弱风,轻松爆笑之余,来点温馨小浪漫,将言情俗套剧情演绎得另类绝伦!】★-----☆-----★某花蓬头垢面、满身淤泥、头顶大肿包,非常狼狈地出现在段萧竹面前,杏眼泛着层层委屈的晶莹。“头儿,你说他家戒备森严、机关重重,不可打草惊蛇,取地下之道才是明智之选,于是我非常听话地照办了。”“然后呢?”“可你没说他家地底下都是花岗石啊!”“…”☆某花衣衫不整、发丝凌乱、手持两块大小不一的石块出现在段萧竹面前,杏眼瞪圆,始终维持高度紧张状态。“头儿,你说他武功盖世、出手不凡,如若撞见,不可轻举妄动,吞下「矣漓」便可假死一时辰,于是我再次非常听话地照办了。”“然后呢?”“可你没说他还留有一狠招--关、门、放、狗!”“…”☆某花裹紧夜行衣,鼻间系个歪斜的蝴蝶结,此时很没形象地挂在后墙上蠕动着,并未发现身后多了一道身影。“墙太高了?”“废话,没看见我翻得这么辛苦吗?真是的,没事把墙砌这么高干嘛,难不成他怕他家娘子红杏出墙?”“…”“我看八成就是,他那么残忍、那么腹黑、又那么变态,娘子红杏出墙是迟早的事!”“残忍?腹黑?变态?”“不止不止,还有冷血、心机重、语障、面瘫等等等等。”“…”“兄台,改天再聊,我得赶紧溜了,要是被他抓到,我又得被残害了。噢,对了,你看我这一直都回不了头,也瞧不见你长相,敢问兄台大名,明儿个好找你。”“乔楚翎!”“啪!”地上腾起一层朦胧的灰尘,它们在这种充满杀气的氛围里活跃地蹿上蹿下,有点太过明显的幸灾乐祸吧?☆“你们谁打得过…他,我白花花就嫁给谁!”某花抬手指向靠在圆柱上一脸悠闲的北漠,摆出一副等着看好戏的架势,杏眼贼溜溜地与台下人海中的某个黑影传递着暗号。“要是没人打得过我呢?”北漠凤眼一眯,嘴角扬起一丝戏虐。“谁赢我就嫁谁呗!”最好来个全败俱伤,这样我就可以趁乱逃跑了。☆“花儿,你终于可以嫁人了!”“爹,我不要嫁!”“啊?为何?这不是你自己定的规矩么?谁赢你嫁谁!我看这女婿挺好的,又有银子又有气魄,武功又高,最重要的啊,就是肯为你拼死拼活。”“他这么拼是为了把我娶回去好天天把我吊起来抽,不给饭吃,不给床睡,好活活虐死我然后站在一边叉腰仰天大笑…爹,你忍心看你女儿被那种禽兽不如的家伙残害致死吗?”“…可是…”
  • 绝世凶魔

    绝世凶魔

    我魔道中人,不尊天道只守本心!纵是天意难违,亦要放手一搏,夺天地造化,炼万物生灵,把一切占有,归于己身,此即魔道。中华古武宗师穿越到修真界魔宗,演绎一段霸气绝伦的凶魔之路!
  • 开启青少年智慧的世界军事故事

    开启青少年智慧的世界军事故事

    本书为青少年朋友精心挑选了世界军事故事,每则故事都浓缩了深刻的人生哲理,蕴藏着丰富的生活智慧,每则故事后都配有“精彩哲思”、“慧语箴言”,对故事的内涵进行挖掘和阐述,帮助青少年领悟生活真谛、人生哲理。精彩的故事,生动的文字,配上简洁大方的版式设计,让青少年在轻松的阅读氛围中,学到生活哲理,汲取人生智慧。
  • 嫡女棣王妃

    嫡女棣王妃

    “姨娘,夫人似乎断气了~”“哼!这么一碗药都下去了,难道她还能活着不成?”“那这······”一个年纪稍长的人朝着这位称作姨娘的人示意了一下自己手中的婴儿,似乎有些犹豫,“这好歹是个男孩,现在夫人已经死了,如果姨娘把他占为己有,然后得了这府中的中馈······”“嬷嬷?!”女子也不等她的话说完,就打断了她,“你记住了,我恨死了这个女人,她的儿子,只能随着她去,我就是以后自己生不出儿子,抱养别人的,也不会要她的。把他给我扔马桶里面溺了,对外就说一出生就死了!”猩红的嘴唇,吐出来的话却是格外的渗人。嬷嬷还想说什么,动了动嘴,却是一句话也没有说,转身朝着后面放着马桶的地方走去。却是没有发现旁边地上一个穿着有些破旧的衣服的小女孩此刻正瞪大了眼睛看着她们两。这是什么情况?自己不是被炸死了吗?怎么会······于此同时,脑中不断有记忆闪现出来,她们是自己的母亲和刚出生的弟弟啊?!不行,先救人。转头看见旁边谁绣花留下的针线跟剪刀,想到自己前世的身手,拿起一根绣花针就朝着那个嬷嬷飞了过去,却在半路上掉落下来,暗骂一声,这人是什么破身体。却引得那两个人听见动静看了过来。女人阴狠的盯着她,“你居然没有死?”微微眯起眼睛,自己的前身也是被她们弄死的了,看样子她们谁也不会放过,抓起旁边的剪刀就冲了过去。随着几声惨叫声,从此以后,府中府外都传遍了她的“美名”——凤家大小姐心肠歹毒,刺伤了府中无数的人,宛如一个疯子。
  • 东宫有本难念的经

    东宫有本难念的经

    宝庆十九年春,大佑国皇太子大婚,大将军之女入主东宫。一个不是淑女的将门千金遭遇一个不是文韬武略的中庸太子,到底是佳偶天成,还是冤家路窄?成婚一年不足,太子忽然休妻。迷影重重,生死茫茫,这样一来,还是不是大团圆结局?
  • 鬼屋

    鬼屋

    一间奇异的出租屋牵扯出了千年恩怨的“人鬼神”之恋。外来的白领女果果本是一普通的平凡女孩,可就在那间鬼屋里,让她经受着可怕的恐惧和千年情节的折磨。于是就有了以下惊人骇俗一幕幕恐怖的亲身经历。