欢迎光临
免费的PDF电子书下载网站

数据科学与大数据技术导论 PDF下载

编辑推荐

暂无

内容简介

本书概要介绍了如何使用Hadoop和Spark处理数据科学涉及的一系列主题:数据提取、数据再加工(datamunging,通常包含数据清洗和整合)、特征提取、机器学习、预测建模、异常检测和自然语言处理。整书侧重于具体的例子,并通过不同方式来提供对商业价值的洞察,全书共分三部分,第 一部分包括第1、2、3章,第二部分包括第4、5、6章,第三部分包括第7、8、9、10、11、12章,后在附录中提供了本书参考材料。

作者简介

暂无

数据科学与大数据技术导论 PDF下载

目录

目  录
译者序

前言
致谢
关于作者
第一部分 Hadoop中的数据科学概览
第1章 数据科学概述2
1.1 数据科学究竟是什么2
1.2 示例:搜索广告3
1.3 数据科学史一瞥4
1.3.1 统计学与机器学习4
1.3.2 互联网巨头的创新5
1.3.3 现代企业中的数据科学6

前沿

前  言数据科学和机器学习作为许多创新技术和产品的核心,预计在可预见的未来将继续颠覆全球许多行业和商业模式。早几年,这些创新大多受限于数据的可用性。
随着Apache Hadoop的引入,所有这一切都发生了变化。 Hadoop提供了一个平台,可以廉价且大规模地存储、管理和处理大型数据集,从而使大数据集的数据科学分析变得实际可行。在这个大规模数据深层分析的新世界,数据科学是核心竞争力,它使公司或组织得以超越传统的商业模式,并在竞争和创新方面保持优势。在Hortonworks工作期间,我们有机会看到各种公司和组织如何利用这些新的机会,帮助它们使用 Hadoop和Spark进行规模化数据科学实现。在本书中,我们想分享一些这样的经验。
另外值得强调的是,Apache Hadoop已经从早期的初始形态演变成整体强大的MapReduce引擎(Hadoop版本1),再到目前可运行在YARN上的多功能数据分析平台(Hadoop版本2)。目前 Hadoop 不仅支持MapReduce,还支持Tez和Spark作为处理引擎。当前版本的Hadoop为许多数据科学应用程序提供了一个强大而高效的平台,并为以前不可想象的新业务开辟了大有可为的新天地。
本书重点本书着重于在Hadoop和Spark环境中数据科学的实际应用。由于数据科学的范围非常广泛,而且其中的每一个主题都是深入且复杂的,所以全面阐述数据科学极其困难。为此,我们尝试在每个用例中覆盖理论并在实际实现时辅以样例,以期在理论和实践之间达到平衡。
本书的目的不是深入了解每个机器学习或统计学方法的诸多数学细节,而是提供重要概念的高级描述以及在业务问题背景下践行的指导原则。我们提供了一些参考文献,这些参考文献对书中技术的数学细节进行了更深入的介绍,附录C中还提供了相关资源列表。
在学习Hadoop 时,访问 Hadoop 集群环境可能会成为一个问题。找到一种有效的方式来“把玩”Hadoop 和 Spark对有些人来说可能是一个挑战。如果要搭建最基础的环境,建议使用 Hortonworks 虚拟机上的沙箱(sandbox),以便轻松开始使用Hadoop。沙箱是在虚拟机内部可运行的完整的单节点Hadoop。虚拟机可以在 Windows、Mac OS 和 Linux 下运行。有关如何下载和安装沙箱的更多信息,请参阅http://hortonworks.com/products/sandbox。有关Hadoop的进一步帮助信息,建议阅读《Hadoop 2 Quick-Start Guide: Learn the Essentials of Big Data Computation in the Apache Hadoop 2 Ecosystem》一书并查看相关视频,在附录C中也可以找到这些信息。
谁应该读这本书本书面向那些有兴趣了解数据科学且有意涉猎大规模数据集下的应用的读者。如果读者想要更多地了解如何实现各种用例,找到最适合的工具和常见架构,本书也提供了强大的技术基础。本书还提供了一个业务驱动的观点,即何时何地在大型数据集上应用数据科学更有利,这可以帮助利益相关者了解自己的公司能产生什么样的价值,以及在何处投资资源来进行大规模机器学习。
本书需要读者有一定的经验。对于不熟悉数据科学的人来说,需要一些基本知识以了解不同的方法,包括统计概念(如均值和标准差),也需要一些编程背景(主要是Python,一点点Java或 Scala)以理解书中的例子。
对于有数据科学背景的人员,可能会碰到一些如熟悉众多Apache项目的实际问题,但是大体上应该对书中的内容游刃有余。此外,所有示例都是基于文本的,并且需要熟悉Linux命令行。需要特别注意的是,我们没有使用(或测试)Windows环境的示例。但是,没有理由假定它们不会在其他环境中正常运行(Hortonworks支持Windows)。
在具体的Hadoop环境方面,所有示例和代码都是在Hortonworks HDP Linux Hadoop版本(笔记本电脑或集群都适用)下运行的。开发环境在发布版本(Cloudera、MapR、Apache Source)或操作系统(Windows)上可能有所不同。但是,所有这些工具在两种环境中都可使用。
如何使用本书本书有几种不同类型的读者:
数据科学家开发人员/数据工程师商业利益相关者虽然这些想参与Hadoop分析的读者具有不同背景,但他们的目标肯定是相同的:使用Hadoop和Spark处理大规模的数据分析。为此,我们设计了后续章节,以满足所有读者的需求。因此,对于在某领域具有良好实践经验的读者,可以选择跳过相应的章节。最后,我们也希望新手读者将本书作为理解规模化的数据科学的第一步。我们相信,即使你看得一头雾水,书中的例子也是有价值的。可以参考后面的背景材料来加深理解。
第一部分包括前3章。
第1章概述了数据科学及其历史演变,阐述了常见的数据科学家成长之路。对于那些不熟悉数据科学的人,该章将帮助你了解为什么数据科学会发展成为一个强大的学科,并深入探讨数据科学家是如何设计和优化项目的。该章还会讨论是什么造就了数据科学家,以及如何规划这个方向的职业发展。
第2章概述了业务用例如何受现代数据流量、多样性和速度的影响,并涵盖了一些现实的数据科学用例,以帮助读者了解其在各个行业和各种应用中的优势。
第3章快速概述了Hadoop及其演变历史,以及Hadoop生态系统中的各种工具等。对于

数据科学与大数据技术导论 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:数据科学与大数据技术导论