大数据的冲击 PDF下载

编辑推荐

大数据分析：决胜互联网金融时代（大数据落地实践之作，汇集世界**数据专家思想精华，*高级专家团队精心译著，OReilly总经理作序，IBM首席科学家等6位专家联袂推荐）

　　★ 风靡日本、韩国的超级畅销书

　　★ 独家披露野村综研的**手资料
　　★ eBay、麦当劳等美国、日本标杆企业的实践案例
　　★ 野村综研大数据专家权威解析
　　大数据的冲击是日本*畅销的大数据商业应用指南。书中结合野村综合研究独家披露的调查数据，网罗了美国、日本标杆企业与政府的应用案例，总结了大数据的商业模式，以及在大数据应用中需要注意的隐私问题，并就如何为大数据时代做好准备展开了深入的探讨，提出了诸多有益的建议。

；

内容简介

　　《大数据的冲击》是日本最畅销的大数据商业应用指南。书中结合野村综合研究独家披露的调查数据，网罗了美国、日本标杆企业与政府的应用案例，总结了大数据的商业模式，以及在大数据应用中需要注意的隐私问题，并就如何为大数据时代做好准备展开了深入的探讨，提出了诸多有益的建议。
　　《大数据的冲击》适合商业人士以及与大数据相关的IT从业者阅读。

作者简介

　　城田真琴野村综合研究所高端IT创新部高级研究员、IT分析师，日本政府“智能云计算研究会”智囊团成员。负责高精尖技术趋势调研、供应商战略分析、国内外企业IT运用调查，专业领域为云计算、商务分析、M2M、IoT等。著有畅销书《云计算的冲击》、《你不可不知的云计算常识与非常识》、《IT大趋势全球信息技术导航图 2012年版》。周自恒IT、编程爱好者，技术宅，初中时曾在NOI（国家信息学奥赛）天津赛区获一等奖，大学毕业后曾任IT咨询顾问，精通英语和日语，译著有《30天自制操作系统》、《代码的未来》、《Android应用开发入门》。

大数据的冲击 PDF下载

第1章　什么是大数据
1.1 　The data deluge
1.2 　用3V来描述大数据的特征
1.3 　广义的大数据
1.4 　为什么现在要谈大数据？①大数据的民主化
1.5 　为什么现在要谈大数据？②硬件性价比的提高以及软件技术的进步
1.6 　为什么现在要谈大数据？③云计算的普及
1.7 　从“看到过去”到“预测未来”BI与大数据的交叉
1.8 　从点（交易数据）分析到线（交互数据）分析
1.9 　大数据的分析工具
本章小结
第2章　支撑大数据的技术
2.1 　人手不足
2.2 　什么是Hadoop
2.3 　发行版本的增加
2.4 　发行版本众多的原因
2.5 　NoSQL数据库
2.6 　风投资本对Hadoop、NoSQL企业的热切关注
2.7 　大数据时代的数据处理基础
2.8 　备受关注的分析型数据库
2.9 　流数据处理（实时数据处理）
2.10 　自行开发流数据处理技术的互联网企业
2.11 　机器学习、统计分析等
2.12 　自然语言处理及其他
本章小结
第3章　以大数据为武器的企业欧美企业篇
3.1 　大步迈进的互联网企业对大数据的运用
3.2 　eBay：每天产生50TB的数据
3.2.1 　超乎寻常的数据产生速度
3.2.2 　eBay的数据分析基础架构
3.3 　Zynga：披着游戏公司外衣的分析公司
3.3.1 　社交游戏经济的重要指标
3.3.2 　提高病毒系数的方法
3.3.3 　数据驱动游戏
3.3.4 　三次点击法则
3.4 　Centrica：通过智能电表分析能源消耗模式
3.4.1 　英国电力、燃气收费的实际情况
3.4.2 　使用智能电表所带来的影响
3.5 　Catalina　　Marketing：通过收银台优惠券对顾客的购买行为进行设计
3.5.1 　存储超过1亿人的购物记录
3.5.2 　预测顾客的购买行为，刺激来店消费
本章小结
第4章　以大数据为武器的企业日本企业篇
4.1 　对大数据的运用正在日本兴起
4.2 　小松：在日本运用大数据的先驱者
4.3 　Recruit：通过对Hadoop的充分运用，成功实现对数据分析的观念革新
4.3.1 　几乎整个公司都在运用Hadoop
4.3.2 　支撑Recruit大数据分析的Hadoop基础架构
4.3.3 　成功的秘诀在于组织体制
4.3.4 　在Recruit眼中Hadoop的真正价值是什么
4.4 　GREE：快速成长的原动力在于数据驱动型工作方式
4.4.1 　比起个人的感觉，数千万人的数据更可信
4.4.2 　数据驱动型工作方式的支撑力是对日志数据的执着
4.4.3 　集结了拥有多种技能的专业人员
4.4.4 　将信息丢失控制在最低限度的团队体制
4.5 　麦当劳：在现实世界中实现一对一营销
4.5.1 　创新性的优惠券背后是周到的准备
4.5.2 　关注将手机用作积分卡的模式
本章小结
第5章　大数据的运用模式
5.1 　大数据的运用实例
5.2 　大数据运用模式的分类
5.2.1 　个别优化批处理型（图表5-2）
5.2.2 　个别优化实时型（图表5-4）
5.2.3 　整体优化批处理型（图表5-5）
5.2.4 　整体优化实时型（图表5-8）
5.3 　大数据的运用级别
5.3.1 　对过去/现状的把握
5.3.2 　发现模式
5.3.3 　预测
5.3.4 　优化
5.4 　专栏：动态定价
5.5 　大数据运用的真正价值
本章小结
第6章　大数据时代的隐私问题
6.1 　在隐私与创新的夹缝中生存
6.2 　美国国会的关注
6.3 　建立社交化档案的是非
6.4 　Do Not Track
6.5 　消费者隐私权法案
6.6 　采用主动许可方式的欧盟
6.7 　数据保护指令同样面临修订
6.8 　在日本需要考虑个人信息保护法及各行业领域的指导方针
6.9 　在向第三方提供信息上采用主动许可方式的指导方针
6.10 　日本政府的讨论情况
6.11 　经济产业省以“信息大航海计划”为契机展开讨论
6.12 　总务省从生活日志的角度展开讨论
6.12.1 　个人信息保护的角度
6.12.2 　与隐私等的关系
6.13 　关键在于与用户的沟通
6.14 　线下行为跟踪
本章小结
第7章　开放数据时代的到来与数据市场的兴起
7.1 　运用公开数据也是一种选择
7.2 　兴盛的LOD运动
7.3 　对政府公开的影响
7.4 　层出不穷的创业型公司
7.5 　通过举办竞赛来促进数据运用
7.6 　输在起跑线上的日本
7.7 　以震灾为契机逐步发展的日本开放数据工作
7.8 　数据市场的兴起
7.8.1 　Factual
7.8.2 　Windows Azure Marketplace
7.8.3 　Infochimps
7.8.4 　Public Data Sets on AWS
7.9 　不同的商业模式
7.10 　数据市场兴盛背后的课题
本章小结
第8章　为大数据时代做好准备
8.1 　大数据时代的企业IT战略
8.2 　共享数据的日本企业
8.2.1 　罗森和雅虎
8.2.2 　KDDI和乐天
8.2.3 　COOKPAD和ID‘s
8.3 　拥有原创数据的优势
8.4 　供应商企业的新商机：数据聚合商
8.5 　谁能成为数据聚合商
8.6 　在美国备受瞩目的支付服务商向数据聚合商的演化
8.6.1 　VISA
8.6.2 　PayPal
8.6.3 　美国运通
8.7 　数据整合之妙：将原创数据变为增值数据
8.8 　日益抢手的数据科学家
8.9 　数据科学家所需的技能
8.10 　数据科学家所需的素质
8.11 　严重的人才匮乏
8.12 　研究生院的成立
8.13 　大数据分析企业吸引了大量的资金
8.14 　日本也开始了对数据科学家的争夺
8.15 　最后的问题：组织结构和企业文化
8.16 　目标：成为数据驱动型企业
本章小结
致 谢
参考文献
版权声明

免费在线读

　　【前言】
　　“Google、Amazon、Facebook、Twitter，这些称霸全球互联网的企业，它们的成功都具备一个共同的因素，你知道是什么吗？”
　　面对这样的问题，恐怕有些人会说：“是因为它们的商业模式非常创新。”而有些人则可能会说：“是因为它们的创业者非常优秀。”
　　然而，本书想要强调的，则是“数据分析”。看到这个词，可能你会说：“什么嘛，就这么简单？”虽然乍看之下会觉得很简单，但我们所列举的这些企业，它们每天不断存储和分析的数据量是十分庞大的，而这正是本书的主题“大数据”。
　　充分运用大数据，并由此获得巨额的收益，Google可以称得上是精通此道的鼻祖。据说，Google每个月要处理900亿次的Web搜索，为此每月需要处理的数据量高达600PB[1]。使用Google各种服务的用户，以及与之相关的各种数据，都是分析的对象。
　　在Google的搜索框中，只需要输入一部分关键字，就会显示出一些搜索关键字的建议，例如，只要输入“云”，系统就会自动提示“云免费”、“云是什么”、“云服务”等[2]。这样的搜索关键字建议，都是对用户庞大的搜索历史记录进行分析后得出的。此外，即便不以片假名的方式输入，而是直接输入罗马拼音“kuraudo”[3]，Google也会给出正确的搜索建议。这种“输入修正功能”（或者叫“你要找的是不是……”功能），也是通过相同的原理实现的。
　　“购买了此商品的顾客还购买了这些商品”，这恐怕是世界上最广为人知的一种商品推荐系统了，而创造出这个系统的正是Amazon。Amazon通过分析商品的购买记录、浏览历史记录等庞大的用户行为历史数据，并与行为模式相似的其他用户的历史数据进行对照，提供出最适合的商品推荐信息。以这种数据分析为核心的服务设计发挥了巨大的作用，推动了Amazon成长为2011年销售额高达约480亿美元（约合人民币3000亿元）的巨型企业。
　　Twitter拥有超过1亿的活跃用户，平均每天产生2.5亿条推文（根据2011年10月公布的数据）。每条推文最多140个字，数据量约为200个字节，这些推文平均每天相当于产生了约48GB的数据流量。而从Twitter整个生态圈来看，平均每天可产生约8TB[4]的数据。
　　Facebook于2012年2月提出了IPO申请[5]。其公布的数据显示，每月活跃用户达到8.45亿，每日活跃用户达到4.83亿，着实令人惊叹。Facebook是世界最大的由用户产生内容的网站。
　　Facebook的所有用户平均每个月在Facebook上花费的时间高达7000亿小时，平均每个用户每个月会创建90条内容（包括新闻、博客等）。整体上来看，每个月产生的内容高达300亿条。根据公布的数据推测，Facebook所拥有的数据量超过30PB。
　　Facebook可以为用户提供类似“也许你还认识这些人”的提示，这种提示可以准确到令人恐怖的程度，而这正是对庞大的数据进行分析而得到的结果。
　　通过分析庞大的数据来获得有价值的信息或判断，这个被称为“大数据”的概念正受到越来越广泛的关注。它所掀起的巨大波澜早已经突破了IT业界的范畴，连报纸和电视新闻节目都对此制作了专题报道。
　　精通IT的读者在这里可能会有一点疑问：“通过对大量数据的分析来提升业绩，并不是这些新兴互联网企业的专利吧？对销售、库存等业务数据进行分析，帮助公司提升竞争优势，这种被称为‘商业智能’（BI）的方法已经由来已久，为什么现在却要特意翻出来大谈特谈一番呢？”
　　说起来，可能还真的是这么回事。例如，美国大型超市连锁集团沃尔玛，每小时就要处理约100万笔交易，在企业的数据仓库中产生和存储的数据量高达2.5PB。企业通过分析每天产生的大量数据，对商品的库存和定价做出极致的优化，这样的努力对于企业业绩的提升可以说功不可没，这是不争的事实。
　　然而，在这里我们也要注意到两个重要的差异。
　　第一，同为海量数据，和传统意义上的销售额、库存量等数值数据相比，Google、Facebook等互联网企业所处理的网站点击流（clickstream）数据和社交数据在管理和分析方法上是大相径庭的。目前大数据潮流的核心，并不是数值数据等结构化数据，而是网站点击流数据和社交数据，或者是传感器数据等这些无法存放在传统关系型数据库中的非结构化数据。
　　第二，从结果来看，掌握用于海量数据管理和处理新技术的，已不是沃尔玛、花旗银行这样的大企业，而是互联网企业和社交媒体企业。和Facebook的30PB相比，沃尔玛的2.5PB不仅在数据量上，而且在数据的多样性（网站点击流、社交媒体上的文字、人与人之间的联系等）和数据产生频率上都有很大差别。在这些方面，传统型大企业有很多东西需要向新兴互联网企业和社交媒体企业学习。
　　笔者有幸采访过的美国B2B企业中，经常能够听到这样的声音：“Google、Amazon、Twitter、Facebook等公司每天都产生、管理和分析大量的数据，传统型大企业需要将这些面向消费者的企业作为学习的榜样。”
　　实际上，现在用于大数据存储和处理的技术，如Hadoop、NoSQL数据库[6]等，大多数是从Google、Amazon、Facebook这样的互联网企业、社交媒体企业中诞生的。
　　在互联网世界之外，也有大数据的身影，其中由传感器网络所产生的传感器数据是最具代表性的一种。对各种机器的状态进行采集，并存储和分析这些数据，这样的尝试从很早就已经开始了，如自动贩卖机的管理系统、公交车和汽车的运行管理系统、重型机械的监控系统等。然而，随着技术的进步和通信成本的下降，能够对各种信息进行采集并对数据进行廉价存储的环境已经日趋成熟，今后应该会迎来进一步的普及。目前带有GPS功能的智能手机，以及Suica、PASMO等交通IC卡等，都已经显现出这样的趋势。
　　今后，随着智能电网、智能城市有望在全世界推广，传感器数据也必定会不断增加。而且，由于传感器是每秒都在进行测量和记录的，它们所产生的数据量，很可能会快速超过网站上由人类产生的信息、文本等数据量。
　　此外，各种设备和机器通过通信手段与互联网服务相结合所诞生的“M2M”（Machine toMachine）、“物联网”（Internet of
　　Things）等词汇最近也受到了广泛的关注，这也将推动传感器数据的进一步增加。
　　将传感器所产生的庞大数据进行提取、分析，转化为有意义的信息并为商业服务，这样的尝试才刚刚崭露头角。这样一块蓝海市场[7]，必将带来巨大的商机。
　　综上所述，Google、Amazon这样的互联网企业，及时发现了一般企业不重视的那些数据的价值，并独自开发出能够低成本存储和处理这些数据的技术，从数据中提取出有价值的信息，并将其整合到业务流程中，最终通过这样的方式发挥了自身的竞争优势。目前，跟随着Google和Amazon的脚步，有越来越多的企业开始积极进行大数据的分析，通过提供新型服务和提高客户满意度来提升自身的竞争优势，这样的势头在各个行业中都愈发显著。
　　当然，原本通过对数值数据等结构化数据的深入分析建立起竞争优势的沃尔玛这样的大企业也不甘落后。沃尔玛于2011年4月收购了擅长社交媒体分析的创业型公司Kosmix，在大数据的运用上迈出了重要的一步。沃尔玛通过对各卖场附近发布的推文和Facebook留言进行分析，掌握各卖场不同的需求，并由此制定商品种类和库存的调整策略。例如，从社交媒体的数据可以看出，在加州山景城有很多居民喜欢自行车，因此可以根据这一特点对卖场的商品种类进行调整。
　　除了社交媒体、非接触式IC卡这些10年前还不存在的新型数据，还有一些数据在过去产生时就被舍弃了，或者是保存下来也没有得到很好的运用，经过一段时间之后就被舍弃了，在这些数据中是不是也埋藏着一些“宝藏”呢？这也正是目前一些企业对大数据的运用跃跃欲试的一个重要的动机。
　　最近在美国经常听到“Data is the new
　　oil”（数据就是石油）这样的说法。这句话的意思是，正如炼油所具备的巨大经济价值一样，数据只要进行适当的分析，也可以产生出巨大的价值。在这种思想的影响下，为了“最大限度地利用大数据所带来的机会”，美国政府于2012年3月宣布对大数据运用相关的研究开发投入2亿美元的巨额资金，展示了尽举国之力的积极态度。
　　本书涵盖了大数据在日本国内外企业中的应用事例，以及大数据在商业领域中的运用要点、课题等内容，旨在尽量以通俗易懂的方式，介绍大数据的日本国内外的现状以及将来的发展趋势。
　　第1章对大数据作出了明确的定义，并讲解现在大数据为什么会如此受关注。
　　第2章讲解了支撑大数据存储、处理、分析的技术，以及其中主要领军者的动向。这一章会涉及很多技术性话题，对技术不感兴趣的读者可以跳过，如果在第3章之后遇到一些看不懂的术语，再回过头来参考这一章。
　　第3章介绍了一些欧美企业对大数据的运用事例，这些企业包括eBay、Zynga、Centrica、CatalinaMarketing等。
　　第4章介绍了一些通过运用大数据带来大幅业绩增长的日本企业，这些企业包括小松、Recruit、GREE[8]、麦当劳等。
　　第5章介绍了笔者所总结的企业用户运用大数据的机会和模式。
　　第6章就大数据的商业应用中无法避免的隐私问题，介绍了国内外的指导意见以及法律法规方面的趋势。
　　第7章介绍了将位于封闭世界中的数据开放出来以促进创新的Open Data运动，以及数据交易市场DataMarketplace。
　　第8章介绍了伴随着大数据时代的到来，企业需要如何应对，例如如何培养和吸引需求急剧高涨的“数据科学家”人才。
　　希望读者阅读本书后，能够对“大数据”这一企业在今后不得不面对的崭新世界加深一些理解。
　　[1] 1PB = 100万GB，这个信息量据说相当于100万年新闻早报的总和。
　　[2] 这些搜索关键字建议是根据日文翻译过来的，用中文搜索出现的搜索建议会有所不同。译者注
　　[3]
　　在日文中，“云”（クラウド）是外来语，即英文“cloud”的音译，而“kuraudo”则是其在日文中实际的读音，这里的例子类似于用中文搜索时直接输入汉语拼音“yun”。
　　译者注
　　[4] 1TB相当于1012字节。
　　[5] Facebook于2012年5月18日在纳斯达克正式上市。译者注
　　[6] 详见第2章。
　　[7]指尚未开拓的新兴市场，这一说法来自《蓝海战略》（Blue Ocean
　　Strategy）一书，其中将现存的传统市场称为“红海市场”，将尚未开拓的新兴市场称为“蓝海市场”。译者注
　　[8]GREE是日本的一家社交网站（http://gree.jp），与中国的格力电器无关。译者注