微软大数据解决方案大数据应用与技术丛书 PDF下载

编辑推荐

暂无

内容简介

Microsoft强大的大数据平台Windows Azure HDInsight和Hortonworks Data Platform for Windows改变了企业处理、存储和管理数据的方式。Microsoft的大数据解决方案套件被设计用于与公司现有的数据基础设施以及SQL Server、Hadoop等产品进行无缝集成，使客户不必中断工作流或关键流程即可实施这些方案。假如需要设计和实施全面部署的大数据解决方案的详明规划蓝图，《微软大数据解决方案》一书无疑是*选择。
主要内容
◆ 使用Windows Azure HDInsight、Hortonworks Data Platformfor Windows和开源工具将大数据解决方案集成到企业中
◆ 在企业内部存储、管理、分析和共享大数据
◆ 安装和配置Hortonworks Data Platform for Windows
◆ 学习大数据与SQL Server及Hadoop的整合
◆ 使用Microsoft和Hadoop BI工具呈现数据<；p style="text-indent:21.0pt；">； Microsoft强大的大数据平台<；span>；Windows Azure HDInsight<；/span>；和<；span>；Hortonworks Data Platform for Windows<；/span>；改变了企业处理、存储和管理数据的方式。<；span>；Microsoft<；/span>；的大数据解决方案套件被设计用于与公司现有的数据基础设施以及<；span>；SQL Server<；/span>；、<；span>；Hadoop<；/span>；等产品进行无缝集成，使客户不必中断工作流或关键流程即可实施这些方案。假如需要设计和实施全面部署的大数据解决方案的详明规划蓝图，《微软大数据解决方案》一书无疑是*选择。<；span>；<；/span>； <；/p>； <；p style="text-indent:21.0pt；">； 主要内容<；span>；<；/span>； <；/p>； <；p style="text-indent:21.0pt；">； ◆ 使用<；span>；Windows Azure HDInsight<；/span>；、<；span>；Hortonworks Data Platform for Windows<；/span>；和开源工具将大数据解决方案集成到企业中<；span>；<；/span>； <；/p>； <；p style="text-indent:21.0pt；">； ◆ 在企业内部存储、管理、分析和共享大数据<；span>；<；/span>； <；/p>； <；p style="text-indent:21.0pt；">； ◆ 安装和配置<；span>；Hortonworks Data Platform for Windows<；/span>； <；/p>； <；p style="text-indent:21.0pt；">； ◆ 学习大数据与<；span>；SQL Server<；/span>；及<；span>；Hadoop<；/span>；的整合<；span>；<；/span>； <；/p>； <；p style="text-indent:21.0pt；">； ◆ 使用<；span>；Microsoft<；/span>；和<；span>；Hadoop BI工具呈现数据 ◆ 为企业创建和执行综合性大数据战略 ◆ 直接获取Microsoft大数据产品团队的最前沿研究成果

作者简介

Adam Jorgensen是Pragmatic Works总裁兼PASS执行副总裁，拥有丰富的数据仓库、分析和NoSQL体系架构经验。

James Rowland-Jones是Big Bang Data公司的首席顾问，专门研究利用SQL Server并行数据仓库和Hadoop生态环境的大数据仓库解决方案。

John Welch是Pragmatic Works软件开发部副总裁，带领团队开发BI套件以及SQL Server数据产品和相关技术。

Dan Clark是Pragmatic Works资深BI顾问，已撰写多本.NET编程和BI开发书籍，发表了多篇论文。

Christopher Price是Microsoft资深顾问，主要研究ETL、数据整合、数据质量、MDM、SSAS、SharePoint以及其他大数据相关技术。

Brian Mitchell是Microsoft Big Data Center of Expertise的首席架构师，专门研究DW/BI解决方案。

微软大数据解决方案大数据应用与技术丛书 PDF下载

 目    录
 第I部分  大数据的含义
 
 第1章  行业需求与解决方案     3
 1.1  何谓“大”数据   3
 1.2  Hadoop简史  4
 1.2.1  Google          4
 1.2.2  Nutch  5
 1.3  Hadoop的概念      5
 1.3.1  衍生品和分发版         6
 1.3.2  Hadoop分发版   7
 1.3.3  Hadoop生态系统的核心   8
 1.3.4  Hadoop中的重要Apache项目 10
 1.3.5  Hadoop的未来   14
 1.4  本章小结        14
 第2章 Microsoft大数据解决方法     15
 2.1  “优质组合”的故事   15
 2.2  生态系统中的竞争        16
 2.2.1  SQL onHadoop现状   16
 2.2.2 Hortonworks和Stinger       16
 2.2.3  Cloudera和Impala     18
 2.2.4  Microsoft对Hadoop中SQL应用的贡献  20
 2.3  Hadoop的部署      20
 2.3.1  部署要素    20
 2.3.2  部署拓扑结构    23
 2.3.3  部署计分卡         26
 2.4  本章小结        28
 第II部分  使用Microsoft建立大数据
 第3章  配置首个大数据环境     31
 3.1  入门        31
 3.2  开始安装        32
 3.3  安装过程        32
 3.3.1  本地安装：单节点安装    32
 3.3.2  HDInsight服务：云端安装        40
 3.3.3  WindowsAzure存储管理器选项       41
 3.4  验证新集群   43
 3.4.1  登录HDInsight服务  43
 3.4.2  通过日志验证HDP功能   44
 3.5  常见的安装后任务        45
 3.5.1  加载首个文件    45
 3.5.2  验证Hive和Pig 46
 3.6  本章小结        50
 第III部分  存储并管理大数据
 第4章 HDFS、Hive、HBase和HCatalog  53
 4.1  探讨HDFS      53
 4.1.1  HDFS体系结构阐述   54
 4.1.2  与HDFS交互      57
 4.2  探讨Hive：Hadoop数据仓库平台      59
 4.2.1  设计、构建和加载表         60
 4.2.2  查询数据    61
 4.2.3  配置HiveODBC驱动程序 61
 4.3  探讨HCatalog：HDFS表和元数据管理       62
 4.4  探索HBase：面向列的HDFS数据库  63
 4.4.1  面向列的数据库         63
 4.4.2  定义和填充HBase表         65
 4.4.3  使用查询操作    66
 4.5  本章小结        66
 第5章 HDFS的数据存储与管理        67
 5.1  了解HDFS基本原理     67
 5.1.1  HDFS体系结构   68
 5.1.2  名称节点和数据节点         69
 5.1.3  数据复制    71
 5.2  使用常用命令与HDFS进行交互 72
 5.2.1  使用HDFS的界面      72
 5.2.2  文件处理命令    74
 5.2.3  HDFS的管理功能       76
 5.3  在HDFS中移动和组织数据 78
 5.3.1  在HDFS中移动数据  78
 5.3.2  实现便于管理的数据结构         79
 5.3.3  重新平衡数据    79
 5.4  本章小结        80
  
 第6章  添加Hive结构         81
 6.1  理解Hive的作用和角色       82
 6.1.1  为非结构化数据提供结构         82
 6.1.2  启用数据访问与转换         88
 6.1.3  鉴别Hive与传统RDBMS系统 88
 6.1.4  使用Hive    89
 6.2  创建和查询基本表        90
 6.2.1  创建数据库         90
 6.2.2  创建表         91
 6.2.3  添加和删除数据         94
 6.2.4  查询表         95
 6.3  使用Hive的高级数据结构  97
 6.3.1  设置分区表         97
 6.3.2  加载分区表         99
 6.3.3  使用视图    100
 6.3.4  创建表索引         100
 6.4  本章小结        101
 第7章  使用HBase和HCatalog来扩展功能    103
 7.1  使用HBase    104
 7.1.1  创建HBase表    104
 7.1.2  将数据加载到HBase表    106
 7.1.3  执行快速查找    107
 7.1.4  加载和查询HBase     108
 7.2  使用HCatalog管理数据       109
 7.2.1  使用HCatalog和Hive        109
 7.2.2  定义数据结构    110
 7.2.3  建立索引    111
 7.3  创建分区        111
 7.4  HCatalog与Pig和Hive的集成    113
 7.5  使用HBase或Hive作为数据仓库       116
 7.6  本章小结        117
  
 第IV部分  使用大数据
 第8章  使用SSIS、Pig和Sqoop
 进行有效的大数据ETL  121
 8.1  结合大数据与SQL Server工具获取更优解决方案     122
 8.1.1  为何要移动数据         122
 8.1.2  在Hadoop和SQLServer之间移动数据   123
 8.2  使用SSIS和Hive   123
 8.3  配置包   128
 8.3.1  将数据加载到Hadoop       131
 8.3.2  从SSIS获得最佳性能         132
 8.4  使用Sqoop转移数据    132
 8.4.1  从SQLServer复制数据      133
 8.4.2  将数据复制到SQL Server  135
 8.5  使用Pig移动数据          135
 8.5.1  使用Pig转换数据      136
 8.5.2  同时使用Pig和SSIS  138
 8.6  选择正确的工具   139
 8.6.1  何时使用SSIS     139
 8.6.2  何时使用Pig       139
 8.6.3  何时使用Sqoop 139
 8.7  本章小结        140
 第9章  使用Pig和Hive进行数据研究和高级数据清理 141
 9.1  了解Pig 141
 9.1.1  使用Pig的时机 142
 9.1.2  利用内置函数    142
 9.1.3  执行用户自定义函数         143
 9.1.4  使用UDF     144
 9.1.5  为Pig创建专属UDF  151
 9.2  使用Hive        153
 9.2.1  使用Hive进行数据分析   153
 9.2.2  Hive函数类型    154
 9.2.3  使用map-reduce脚本扩展Hive        155
  
 9.2.4  创建自定义map-reduce脚本   158
 9.2.5  为Hive创建专属UFD        159
 9.3  本章小结        161
 第V部分  大数据与SQL Server的整合
 第10章  数据仓库与Hadoop整合     165
 10.1  行业状况      166
 10.2  传统数据仓库架构面临的挑战 166
 10.2.1  技术制约  167
 10.2.2  业务挑战  171
 10.3  Hadoop在数据仓库市场上的影响    173
 10.3.1  保持一切  173
 10.3.2  代码优先(模式延后)         174
 10.3.3  塑造价值  175
 10.3.4  计算问题  176
 10.4  介绍并行数据仓库      176
 10.4.1  何谓PDW 177
 10.4.2  PDW为什么重要      178
 10.4.3  PDW的工作方式      180
 10.5  Polybase项目       188
 10.5.1  Polybase架构   188
 10.5.2  当今Polybase的商业案例       199
 10.5.3  预测Polybase的未来       201
 10.6  本章小结      204
 第11章  使用Windows BI呈现大数据       205
 11.1  工具生态系统      205
 11.1.1  Excel  206
 11.1.2  PowerPivot         206
 11.1.3  Power View        207
 11.1.4  Power Map        207
 11.1.5  报表服务  208
  
 11.2  使用PowerPivot的自助式大数据      210
 11.2.1  设置ODBC驱动程序        210
 11.2.2  加载数据  211
 11.2.3  更新模型  217
 11.2.4  添加度量标准  218
 11.2.5  创建数据透视表       218
 11.3  使用Power View加速大数据探索     220
 11.4  使用Power Map的快速空间探索     224
 11.5  本章小结      225
 第12章  大数据分析   227
 12.1  数据科学、数据挖掘与预测分析      227
 12.1.1  数据挖掘  227
 12.1.2  预测分析  228
 12.2  Mahout介绍        229
 12.3  构建一个推荐引擎      230
 12.3.1  开始  231
 12.3.2  运行用户到用户推荐作业       232
 12.3.3  运行项目到项目推荐作业       234
 12.4  本章小结      235
 第13章  大数据与云   237
 13.1  定义云 237
 13.2  探索大数据云提供商 238
 13.2.1  Amazon     238
 13.2.2  Microsoft   239
 13.3  在云端设置大数据沙盒      239
 13.3.1  开始使用AmazonEMR    240
 13.3.2  开始使用HDInsight 244
 13.4  在云端存储数据 251
 13.4.1  存储数据  251
 13.4.2  上传数据  252
 13.4.3  探索大数据存储工具       252
 13.4.4  整合云端数据  254
 13.4.5  其他云端数据源       255
 13.5  本章小结      255
 第14章  现实生活中的大数据   257
 14.1  常见行业分析      257
 14.1.1  电信  257
 14.1.2  能源  258
 14.1.3  零售  258
 14.1.4  数据服务  259
 14.1.5  IT/托管优化      259
 14.1.6  市场社会情绪  260
 14.2  运营分析      260
 14.2.1  快速失败  260
 14.2.2  一个新的技术生态系统  260
 14.2.3  用户受众  262
 14.3  本章小结      264
 第VI部分  继续向前发展大数据
 第15章  创建和执行大数据计划       267
 15.1  获得赞助方和利益相关方的认同      267
 15.1.1  问题定义  268
 15.1.2  范围管理  269
 15.1.3  利益相关方的期望  270
 15.1.4  定义成功的标准       270
 15.2  确定技术上的挑战      271
 15.2.1  环境的挑战       271
 15.2.2  技能的挑战       272
 15.3  确定运营上的挑战      273
 15.3.1  制定设置/配置计划          273
 15.3.2  制定运行维护计划  274
 15.4  更进一步      275
 15.4.1  交付到运营       276
 15.4.2  部署之后  276
 15.5  本章小结      276
 第16章  运营的大数据管理       279
 16.1  混合型大数据环境：云端与本地解决方案协同工作      279
 16.2  使用云计算和本地解决方案的动态数据集成 280
 16.3  大数据的集成思想      281
 16.4  大数据环境中的备份和高可用性      283
 16.4.1  高可用性  283
 16.4.2  灾难恢复  285
 16.5  大数据解决方案的管理      286
 16.6  创建运营分析      286
 16.6.1  HDP系统中心运营管理器       287
 16.6.2  安装AmbariSCOM管理软件包       288
 16.6.3  使用AmbariSCOM管理软件包进行监控       296
 16.7  本章小结      300

前沿

前言
如果你正在寻找并渴望知道大数据将对数据世界带来什么样的影响，那么本书就为你而著。与那些动辄几百页让人头疼的长篇累牍的叙述不同，我们通过一种不同方式来阐明你需要大数据，每个人都在做这件事情，而你一定要做得更“酷”一些。
作者团队希望创造出一些东西，它能成为你想脱离现有的关系型世界时的首选资源，不仅为你提供了前进的发展蓝图，还提供了实践经验而不需要你再去四处查找操作条款。大数据的新颖性和复杂性决定了在阐述细节时必须更详尽，而本书做到了！
我们的重点是确保你可以轻松过渡到使用这些工具和技术，因为你需要做的事情我们都曾经历过。也许你的老板参加完一个会议后走到你面前说：“我们需要大数据解决方案。”当你问他想要解决什么问题时，他回答不了，但他却非常清楚大数据解决方案对企业的重要性。此时，你就得承担起让这些大数据由梦想变为现实的责任。 前 言 如果你正在寻找并渴望知道大数据将对数据世界带来什么样的影响，那么本书就为你而著。与那些动辄几百页让人头疼的长篇累牍的叙述不同，我们通过一种不同方式来阐明你需要大数据，每个人都在做这件事情，而你一定要做得更“酷”一些。 作者团队希望创造出一些东西，它能成为你想脱离现有的关系型世界时的首选资源，不仅为你提供了前进的发展蓝图，还提供了实践经验而不需要你再去四处查找操作条款。大数据的新颖性和复杂性决定了在阐述细节时必须更详尽，而本书做到了！ 我们的重点是确保你可以轻松过渡到使用这些工具和技术，因为你需要做的事情我们都曾经历过。也许你的老板参加完一个会议后走到你面前说：“我们需要大数据解决方案。”当你问他想要解决什么问题时，他回答不了，但他却非常清楚大数据解决方案对企业的重要性。此时，你就得承担起让这些大数据由梦想变为现实的责任。 通常，当有数据仓库或数据立方体(cube)需求时，需要通过培训课程和花费很长时间在网上搜寻相关信息，同时这些信息令你感到如此陌生。你将了解到大数据真的是很大——这绝不是双关语。它可以做大事，解决大问题，是一个庞大的含有工具和平台的生态系统。尽管如此，也像其他多数生态系统一样(RDBMS、编程语言、移动化和云)，最基本的也只有那么几样东西。一旦能掌握这些最基本的东西，当需要使用更高级的工具或自动化操作时，你会深深被这些基础知识所带来的结果而震惊。 我们的团队 我们组建了一支强大的国际作家团队以确保在正确的主题上传播卓越的观点和知识(稍后将讨论这些内容)。这些主题包括： (1) 大数据、Hadoop、NoSQL和关键行业知识的快捷概述 (2) 人们正试图解决的关键问题以及如何识别这些问题 (3) 在Microsoft环境中交付大数据 (4) 选择工具和平台 (5) 安装、配置和管理 (6) 存储和管理大数据 (7) 使用数据、添加数据结构和清理数据 (8) 大数据与SQL Server结合 (9) 大数据分析 (10) 云端的工作方式 (11) 案例学习以及现实世界的应用 (12) 在崭新的世界中让你的机构取得进步 这支团队的成员来自以下不同的机构：Pragmatic Works公司，它是一家全球领先的信息服务、软件和培训机构；微软研究院；微软咨询服务部；Azure客户咨询团队；以及其他一些在这个不断扩展的领域中产生着巨大影响的行业厂商。 不开玩笑 大数据如潮水般汹涌而至，在24个月之内你的环境就将拥有这些解决方案，而你应该提前准备好。本书旨在帮助你完成从关系型数据到更“进化的”数据世界视野的实用技巧的过渡。这包括处理那些并不非常适合表状结构的数据的解决方案，某些情况下，这些数据与你小心翼翼地维护了许多年的数据一样重要，或许更加重要。 同样，你将学到许多新的术语，作为一门技术课程，它简直就像一门词汇课程一样。 本书读者对象 本书面向数据开发人员、超级用户以及希望理解大数据技术将如何影响他们的世界以及如何在新的生态系统中恰当地采用解决方案的管理人员。读者需要对数据系统有基本的理解，并且拥有学习新技术和新技巧的热情。一些数据库或应用程序解决方案的开发经验将有助于理解一些高级领域的内容。 使用本书的先决条件 我们已将本书设计为广泛使用云资源，因此作为读者，需要有一台能可靠访问互联网的新型电脑，PC或Mac都可以。此外，你将希望能够安装作者建议的额外的程序和工具，因此请确保你对正在使用的机器有恰当的权限。不同的章节将用到不同的工具和数据集，因此请按这些章节中的作者指示来得到最大化的操作体验。某些章节要求拥有对SQL Server数据库的访问权限，假如你希望建立内部环境，那么推荐使用Hyper-V、VMWare或VirtualBox之类的虚拟化技术。 章节内容概述 现在我们将浏览一下本书中的所有章节，并探讨你将在每一章中学到哪些内容。 第1章：行业需求与解决方案 没有涵盖生态系统的历史、起源和使用案例的大数据书籍是不完整的。本书同样需要探讨行业参与者和平台，其他著作会占用5或6章的篇幅来烦琐地讲述这些信息，但是我们更高效地完成了这部分内容，让你有更多时间接触那些更有趣的内容。 第2章：Microsoft大数据解决方法 Microsoft环境下的部署和传统的UNIX或Linux环境下的部署有些许区别。当我们感觉这种方法能让数百万Window管理员、开发人员和超级用户更容易理解时，我们就选择了这种方法。在著书之前就对许多人做过调查，最终发现压倒性地需要一个偏重于Windows的解决方案来帮助拥有最多人数的企业用户接触这门新技术。 第3章：配置首个大数据环境 在该章中将开始配置大数据环境。 第4章： HDFS、Hive、HBase和HCatalog 这些是一些关键的数据和元数据技术，我们将确保你理解使用每一个的正确时机以及如何发挥其最大性能。 第5章：HDFS的数据存储与管理 分布式文件系统对于大部分读者而言可能是一个新概念，因此我们将完整地介绍Hadoop的这个核心组件并确保你准备好使用这个不可思议的功能来进行设计。 第6章：添加Hive结构 由于将经常使用Hive，因此我们需要更深入地钻研它。在该章中让我们一起来一探究竟，确保你理解了有效地使用Hive所需的命令和逻辑。 第7章：使用HBase和HCatalog来扩展功能 处理大型表和元数据需要用到一些新的工具和技术。HBase和HCatalog将有助于你控制这些类型的挑战，我们将让你明白如何使用它们。准备好迎接“大”数据吧！ 第8章：使用SSIS、Pig和Sqoop进行有效的大数据ETL 我们不得不加载数据，没有人能提出比我们的ETL专家作者更好的方法了。和他们一起使用熟悉和喜欢的工具以及一些新工具，快速有效地加载数据。 第9章：使用Pig和Hive进行数据研究和高级数据清理 现在我们已经安装、配置、管理并加载过一些数据，让我们使用新的工具和平台来研究和清理数据。 第10章：数据仓库与Hadoop整合 SQL Server和商业智能能在很大程度上适应大数据。大部分时间它们是一前一后地工作。我们将展示使用每种解决方案的时机以及它们在扩大和扩展的解决方案中是如何协同工作的。 第11章：使用Windows BI呈现大数据 现在我们已经有了分析结果，那么要如何将它们形象化地展示给我们的用户？我们有相关的新工具吗？我们会使用我们熟悉的工具吗？当然！让我们一起来做，这样我们可以明白如何将这些解决方案结合起来为我们的用户和客户实现最好的结果。 第12章：大数据分析 你已经听说过分析，这一章包括高级统计学分析、社会情绪分析、预测、建模以及其他很多内容！ 第13章：大数据与云 你需要在数据中心拥有大量的服务器才能完成本书中的事项吗？当然不是！我们可使用灵活的、可伸缩的方式在云端完成这些事项。 第14章：现实生活中的大数据 其他公司在这个生态环境中是如何取得成功或遭遇失败的。我们将看看一些最有代表意义的成功和失败案例，并理解为什么会产生这种结果，那样我们就可以复制成功的经验或避免失败的结果。 第15章：创建和执行大数据计划 我们应该如何利用已经完成的东西并将其变为现实？该章将帮助你制订大数据规划。 第16章：运营的大数据管理 好像其他关键系统一样，管理这些技术并将它们整合进现有的基础架构中需要进行规划并仔细执行。让我们一起来完成这个规划吧！ 本书特色 本书使用的以下特色段落和图标有助于将你的注意力转移到本书中一些最重要或最有用的信息上。 警告： 看到这个时一定要警觉，当因一些特定步骤没有被正确执行而造成损害时，就会看到这样一个旁白。 提示： 这些旁白包含一些快速提示，讲述如何简单地执行手头的任务。 注意： 这些旁白包含可能很重要的额外信息，包括能让特定项目开发更简单的视频链接和在线材料。 示例标题 这些旁白是关于当前话题或相关话题的一些更深入介绍。