编辑推荐
 ;  ;  ; 《数据科学实用算法》将重点讲述数据分析的基石——算法。要成为一名数据分析专家,你必须了解算法原理,否则会产生挫败感、进入死胡同、浪费时间以及失败。本书将基本原理、算法和数据融为一体,提供大量Python和R代码,执行真实的数据分析,帮助你熟练编写程序,处理富有挑战性的数据。在学习过程中,你将沉浸在Python中,深入了解数据科学的基本算法和方法,获得根据新问题改编算法和进行创新分析的能力。
《数据科学实用算法》面向数学、统计学和计算机科学专业的高年级本科生和研究生,可用作一学期或两学期的数据分析课本。先修科目要求不高,学过一两门概率论或统计学课程、接触过向量和矩阵、学过编程课程的学生不会遇到任何困难。每章结尾处通常进行扩展,介绍数据科学从业者感兴趣的创新内容,提供不同难度的练习。本书也非常适合自学,可作为从业人员的参考书籍。
 ;
内容简介
《数据科学实用算法》分为三部分。
第I部分“数据约简”首先讨论数据约简和数据映射等概念,然后讲述关联统计、可扩展算法和分布式计算等基础知识。
第II部分“从数据中提取信息”呈现线性回归、数据可视化和聚类分析等主题,用一章的篇幅介绍医疗分析的关键领域。
第III部分“预测分析”通过开发两个基本且广泛使用的预测函数(k近邻和朴素贝叶斯)向读者介绍预测分析技术,用一章的篇幅专门论述预报,*后一章重点介绍数据流。
作者简介
Brian Steele是蒙大拿州立大学的数学教授,是SoftMath咨询公司的资深数据科学家。 Steele博士发表过多篇关于EM算法、精确bagging、bootstrap和诸多统计应用的技术文章。Steele主要讲授数据分析和统计课程,并为客户提供与数据科学和统计有关的咨询。
John Chandler自1999年以来一直从事最前沿的营销和数据分析工作,曾帮助多家《财富》100强公司评价广告效果,改善绩效。Chandler博士从2015年开始在蒙大拿州立大学商学院担任市场营销教授,讲授高级营销分析和数据科学课程。Chandler也是Ars Quanta咨询公司的创始人和首席数据科学家。
Swarna Reddy是蒙大拿州立大学数学系教授,也是SoftMath咨询公司的创始人、首席执行官和资深数据科学家。Reddy专门研究计算数学和运筹学,曾发表过多篇论文,已开发出多个重大的生物信息学、网络安全和商业分析方案。
目录
第I部分 数据约简
第1 章 数据科学概述 3
1.1 什么是数据科学? 3
1.2 美国的糖尿病数据 5
1.3 《联邦党人文集》的作者数据 6
1.4 预测纳斯达克股价 8
1.5 述评 9
1.6 关于本书 10
1.7 算法 12
1.8 Python语言 13
1.9 R语言 13
1.10 术语和符号 14
1.11 本书网站 16
第2 章 数据映射和数据字典 17
媒体评论
本书内容丰富,编排精当,精彩讲解数据科学中使用的实用算法。介绍每种算法时,首先讲述基础概念,然后给出详明教程,其中包含实际数据集以及丰富的Python或R示例代码。每章末尾附有针对性极强的“概念练习”和“计算练习”,以便读者进一步巩固所学的知识。本书是数据科学从业人员的良师益友,也是数学、统计学和计算机科学专业的研究生和高年级本科生的优秀教材。
——Xiannong Meng, Computing Reviews
本书浓墨重彩地描述数据分析技术,全面系统地探讨数据科学基本原理、算法以及在多个领域的应用。本书由三位数据科学家联袂撰写,将枯燥的理论知识讲得生动有趣,为我们打开了数据科学的大门,让我们有机会接触到这个时下*热门、*发展潜力的领域。阅读本书后,读者将能根据具体问题调整算法,并实施具有创新意义的分析。本书既可作为教材,也是从业者案头必备的宝贵资料。
——Krzysztof J. Szajowski, zbMATH
前沿
前言
自2001年以来,数据科学被公认为一门科学。其根源在于技术的进步产生了几乎不可思议的海量数据。我们已经意识到,新数据的产生速度在一段时间内不太可能放缓,我们需要研究产生这些数据的系统和过程。原始数据的价值较小;矛盾的是,此类数据越多,价值越低。必须对其进行约简,以便从中提取真正有用的价值。从数据中提取信息是数据科学的主题。
成为一名成功的数据科学实践者是一项真正的挑战。所学的知识包含统计学、计算机科学乃至数学等多领域的主题。此外,特定领域的知识也非常有用,即使这些知识未必是关键知识。为这些领域培养学生是非常有必要的。但某些时候,这些学科领域需要作为连贯的一揽子方案汇集在一起,成为一门课程——数据科学(data science)。一个未学习数据科学课程的学生就没有为实践数据科学做好充分准备。《数据科学实用算法》作为一门课程的主干,介绍了主要的学科领域。
我们已注意到雇主对初级数据科学家的需求,以及这些新数据科学家所缺乏的技能。其中最缺乏的是编程能力。从教育者的角度看,我们要讲授原则和理论,让学生自行学习所需的具体知识。我们不可能教给他们职业生涯中所需的一切知识,即使是短期内的也不可能。但教学原则和基础是为独立学习做好充分准备。
《数据科学实用算法》要研究数据约简原理,分析数据科学中的核心算法。了解基本原理对于适应现有算法和创建新算法至关重要。《数据科学实用算法》为读者提供了许多提高编程技能的机会。每个详细讨论的算法都有一个指南,引导读者通过Python或R实现算法,然后将算法应用于真实的数据集。为便于描述,我们自编的编码命令清除了一些重要的预测分析算法。
《数据科学实用算法》主要针对两类读者。第一类读者是数据科学、统计学、数学和计算机科学相关领域的实践者。如果这些读者有兴趣提高分析能力(也许他们的目标是成为一名数据科学家),那么他们就会阅读《数据科学实用算法》。第二类读者是数据科学、商业分析、数学、统计和计算机科学的高年级本科生和研究生,这些读者将参加数据分析课程或自学课程的学习。
根据读者水平的不同,《数据科学实用算法》可用于一到两个学期的数据分析课程。如果用于一学期的课程,那么教师可采用多种方式选择课程内容。所有方式都要选择第1章和第2章,以便牢固树立数据约简和数据字典的概念。
(1) 如果教学重点是计算,那么务必学习第3章、第4章和第12章。第3章和第4章讨论用于大规模数据和分布式计算的方法。第12章是关于流数据的,所以这一章是结束课程的好选择。第7章介绍“医疗分析”,这一章是可选的,可在时间允许的情况下讲授;该章涉及较多具有挑战性的数据集,这些数据集为学生和教师提供了许多接触有趣项目的机会。
(2) 面向一般分析方法的课程可跳过第3章和第4章,而选择讲授第5章 (数据可视化)和第6章 (线性回归方法)。最后选择第9章(k近邻预测函数)以及第11章(预报)。
(3) 面向预测分析的课程将侧重于第9章和第10章(多项式朴素贝叶斯预测函数)。最后选择第11章(预报)和第12章(实时分析)。
数据科学实用算法 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版