欢迎光临
免费的PDF电子书下载网站

Spark高级数据分析 PDF下载

编辑推荐

  这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。

  本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。

  本书介绍了以下模式:

  音乐推荐和Audioscrobbler数据集

  用决策树算法预测森林植被

  基于K均值聚类进行网络流量的异常检测

  基于潜在语义分析技术分析维基百科

  用GraphX分析伴生网络

  对纽约出租车轨迹进行空间和时间数据分析

  通过蒙特卡罗模拟来评估金融风险

  基因数据分析和BDG项目

  用PySpark和Thunder分析神经图像数据 ;

内容简介

  本书是使用Spark进行大规模数据分析的实战宝典,由大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。

作者简介

  Sandy Ryza是Cloudera公司数据科学家,Apache Spark项目的活跃代码贡献者。领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。

  Uri Laserson是Cloudera公司数据科学家,专注于Hadoop生态系统中的Python部分。

  Sean Owen是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。

  Josh Wills是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。

Spark高级数据分析 PDF下载

目录

推荐序 ix
译者序 xi
序 xiii
前言 xv
第1 章 大数据分析
1.1 数据科学面临的挑战
1.2 认识Apache Spark
1.3 关于本书
第2 章 用Scala 和Spark 进行数据分析
2.1 数据科学家的Scala
2.2 Spark 编程模型
2.3 记录关联问题
2.4 小试牛刀:Spark shell 和SparkContext
2.5 把数据从集群上获取到客户端

媒体评论

  “四位作者研习Spark已久,他们在本书中跟读者分享了关于Spark的大量精彩内容,而且本书的案例部分同样出众!对于这本书,我钟爱的是它强调案例,且这些案例都源于现实数据和实际应用……认真研读此书,你应该可以吸收这些案例中的思想,并直接将其运用在自己的项目中!”

——Matei Zaharia,Databricks公司CTO兼Apache Spark项目副总裁

Spark高级数据分析 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:Spark高级数据分析