编辑推荐
大数据时代,数据科学研究与分析日益重要。本书独树一帜,教你利用灵活的命令行工具成为高效多产的数据科学家。
为此,作者开发了数据科学工具箱,一个包含80多个命令行工具的安装简单的虚拟环境,能在Windows、OS X和Linux操作系统上运行。你将学会如何结合使用这些小而强大的命令行工具,快速地获取、清洗、探索和建模数据。
通过阅读本书,你会明白为什么命令行是一种灵活、可伸缩、易扩展的技术。即使你已经能够使用Python或R得心应手地处理数据,利用命令行也将大大改进你的数据科学工作流。
通过本书你将学会:
从网站、API、数据库和电子表格中获取数据
对纯文本、CSV、HTML/XML和JSON格式数据进行清洗
探索数据,计算描述性统计信息,进行可视化呈现
管理数据科学工作流
使用单行命令和已有的Python或R代码创建可重用的命令行工具
实现数据密集管道的并行化和分布化
使用降维、聚类、回归和分类算法对数据进行建模 ;
内容简介
本书集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。
作者简介
Jeroen Janssens
爱思唯尔(*的科技及医学出版公司)首席数据科学家,曾是纽约YPlan公司高级数据科学家。专门从事机器学习、异常检测和数据可视化。在荷兰马斯特里赫特大学获得人工智能硕士学位,在荷兰蒂尔堡大学获得机器学习博士学位。他热衷于创建数据科学的开源工具,个人网站是http://jeroenjanssens.com/。
王晓伟(译)
毕业于国防科学技术大学,获计算机科学与技术专业博士学位。研究兴趣为海量数据管理与挖掘。
刘峰(译)
百度LBS位置大数据部资深研发工程师,新加坡南洋理工大学计算机工程系博士,研究领域包括机器学习、神经网络、数据挖掘等。2010年加入百度,主要从事大数据分析和挖掘方面的工作,近年来专注于网络定位、智能交通等LBS大数据的挖掘和机器学习应用。
目录
前言
第1章 简介
1.1 概述
1.2 数据科学就是OSEMN
1.2.1 数据获取
1.2.2 数据清洗
1.2.3 数据探索
1.2.4 数据建模
1.2.5 数据解释
1.3 插入的几章
1.4 什么是命令行
1.5 为什么用命令行做数据科学工作
1.5.1 命令行的灵活性
1.5.2 命令行可增强
媒体评论
“命令行体现了Unix‘简单工具’的理念,即每个工具完成一项工作,然后巧妙地连接在一起。Jeroen很专业地讨论了怎样将这个理念引入数据科学工作,展示了为什么命令行不仅能够进行简单的文件输入/输出,还是数据操作、探索,甚至建模的利器。”
——Chris H. Wiggins
《纽约时报》首席数据科学家,哥伦比亚大学应用物理学与应用数学系副教授
“这本书讲解了如何将常见的数据科学任务集成到一个连贯的工作流,涵盖了分解问题和组合方案的策略。”
——John D. Cook
知名应用数学、统计及软件开发咨询顾问
命令行中的数据科学 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版