Spark大数据处理技术 PDF下载

编辑推荐

为数不多全面介绍Spark及Spark生态圈相关技术的技术书籍

俯览未来大局，不失精细剖析，呈现一个现代大数据框架的架构原理和实现细节

透彻讲解Spark原理和架构，以及部署模式、调度框架、存储管理及应用监控等重要模块

Spark生态圈深度检阅：SQL处理Shark和Spark SQL、流式处理Spark Streaming、图计算Graphx及内存文件系统Tachyon

相关图书推荐：
《PaaS实现与运维管理》基于Mesos +Docker+ELK的实战指南

；

内容简介

　　《Spark大数据处理技术》是一本全面介绍Spark及Spark生态圈相关技术的书籍，是国内首本深入介绍Spark原理和架构的技术书籍。主要内容有Spark基础功能介绍及内部重要模块分析，包括部署模式、调度框架、存储管理以及应用监控；同时也详细介绍了Spark生态圈中其他的软件和模块，包括SQL处理引擎Shark和SparkSQL、流式处理引擎SparkStreaming、图计算框架Graphx以及分布式内存文件系统Tachyon。《Spark大数据处理技术》从概念和原理上对Spark核心框架和生态圈做了详细的解读，并对Spark的应用现状和未来发展做了一定的介绍，旨在为大数据从业人员和Spark爱好者提供一个更深入学习的平台。

　　《Spark大数据处理技术》适合任何大数据、Spark领域的从业人员阅读，同时也为架构师、软件开发工程师和大数据爱好者展现了一个现代大数据框架的架构原理和实现细节。相信通过学习《Spark大数据处理技术》，读者能够熟悉和掌握Spark这一当前流行的大数据框架，并将其投入到生产实践中去。

作者简介

??????????????: @Andrew-Xia?????????11???????????????8????????????Palm Source, Trend Micro????Linux???????????????????????????????Spark??????????????Apache Spark project?Initial Committer, ????????Hadoop?Mesos?Yarn???????????????

Spark大数据处理技术 PDF下载

媒体评论

Spark的高速发展导致了中文信息的脱节。这本书深入浅出地介绍了Spark和Spark上多个重要计算框架，希望它的问世可以更好地在大中华地区普及Spark，增进华人Spark社区的发展。
——Databricks大数据公司联合创始人 Apache Spark PMC Member 辛湜
Apache Spark对一体化大数据流水线的搭建进行了前所未有的简化。然而，在大数据领域固有的复杂性面前，要交付高效稳定的数据产品，开发者仍有必要对框架细节有充分的了解。本书详细介绍了Spark主体框架中最为关键的执行流程，相信可以为读者在基于Spark的大数据系统设计和调优方面提供有效的指导。
——Databricks工程师连城
随着大数据时代的到来，企业数据每天都在急剧快速膨胀，如何发掘这些数据的价值，需要一种高效而稳定的分布式计算框架和模型。Spark恰逢其时，应运而生。本书对Spark进行了详细的阐述，包括核心模块和各个子系统，能让Spark初学者快速了解和上手Spark，是学习Spark的敲门砖。希望借此书，能让更多的读者去深入发掘Spark之美。
——*技术部数据挖掘与计算团队负责人黄明(明风)
Apache Spark由于其基于内存的高性能计算模式以及丰富灵活的编程接口，得到了广泛的支持和应用，大有逐渐取代Hadoop MapReduce成为新一代大数据计算引擎的趋势。本书从源代码角度深入浅出地分析了Apache Spark及相关大数据技术的设计及实现，包含很多实战经验和使用心得。相信本书对于进行大数据、内存计算及分布式系统研究，Apache Spark的深入理解以及实际应用，都有很好的参考价值。
——英特尔亚太研发有限公司技术总监段建刚
大数据是行业热点中的热点，而Spark则是大数据相关技术中的明星。本书的几位作者都是在Spark领域有着丰富一线经验的技术从业者，本书系统化地介绍了Spark相关知识，是学习Spark不可多得的优秀书籍。
——前*技术部负责人、技术总监曾宪杰

免费在线读

序
2009年的时候，Netflix公司举办了一个叫作Netflix Prize的推荐算法比赛。这个比赛匿名公布了Netflix五十万用户对近两万部电影的一亿个评分数据，希望参赛者能够开发出更好的推荐算法，以提高推荐系统的质量。这个比赛的奖金有一百万美元。一百万美元看似很多，但是和一个更好的推荐算法给Netflix带来的效益相比，实则九牛一毛。
高昂的奖金和Netflix提供的真实数据吸引了不少的参赛者，其中也包括了来自加州大学伯克利分校（UC Berkeley）的博士生Lester Mackey。Lester师从机器学习领域泰斗Michael Jordan，在一个叫作AMPLab的大数据实验室里进行博士研究。AMPLab和大多数学术界实验室不同的地方在于实验室内有多个教授和他们带领的学生一起合作。这些研究人员来自不同的领域，包括机器学习、数据库、计算机网络、分布式系统等。当时，要想提高算法研究迭代的效率，需要利用多台机器的分布式建模。在尝试了当时业界最流行的Hadoop MapReduce后，Lester发现自己的时间并不是花在提高算法效率上，而是耗费在MapReduce的编程模型和低效的执行模式上。这个时候，他向实验室内部的另外一名进行分布式系统研究的学生Matei Zaharia求助。
当时年纪轻轻的Matei在业界已经小有名望。他在雅虎和Facebook实习期间做了很多Hadoop早期的奠基工作，包括现今Hadoop系统内应用最广的fair scheduler调度算法。在和Lester的思维碰撞中，Matei总结了Hadoop MR的不足，开始设计了第一个版本的Spark。这个版本完全为了Lester定制，只有几百行的代码，使得Lester可以高效率地进行分布式机器学习建模。
Lester所在的The Ensemble团队最后和BellKors Pragmatic Chaos设计了在效率上并列第一的算法，可惜因为晚了20分钟提交，与一百万美元奖金失之交臂。5年之后，Lester和Matei都变成了学术界和业界杰出的人物。Lester成为了斯坦福大学计算机系的教授，带领着自己的学生攻克一个又一个机器学习和统计的难题。Matei成为了麻省理工计算机系的教授，也是Databricks公司的CTO。
2009年之后的4年里面，AMPLab以Spark为基础展开了很多不同的学术研究项目，其中包括了我参与和主导的Shark和GraphX，还有Spark Streaming、MLlib等。4年里随着Hadoop的发展，Spark也逐渐从一个纯学术研究项目发展到了开始有业界敢于吃螃蟹的用户。
2013年，包括Matei和我在内的Spark核心人员共同创立了Databricks公司，立志于提高Spark的发展速度。过去两年，Spark的发展超越了我们所有人的想象。一年半以前Spark还是一个连监控界面都不存在的系统，很难放进生产线部署。而一年半后的今天，它已经变成了整个大数据生态圈和Apache Software Foundation内最活跃的项目，活跃程度远远超出了曾经Spark只能望其项背的Hadoop。
在从Hadoop转向Spark的道路上，我个人感觉国内的速度甚至超越了国外的社区。一年以前我第一次在中国的大数据会议上宣讲Spark，当时台下的大多数人对这个新的项目还有很大的质疑，认为其只会昙花一现。一年之后，Spark的每个新版本中都有不少华人贡献的代码，国内很多高科技和互联网公司也都有了Spark的生产作业，不少用户直接减少了在Hadoop MapReduce上的投资，把新的项目都转移到了Spark上。
今天正好是Databricks公司成立一年半，也是Spark 1.2版本第一个release candidate发布的日期。Spark的高速发展导致了中文信息的脱节。这本书深入浅出地介绍了Spark和Spark上多个重要计算框架，希望它的问世可以更好地在大中华地区普及Spark，增进华人Spark社区的发展。

辛湜 Reynold Xin
2014年11月30号
Berkeley, CA