New Internet：大数据挖掘(来自一线大数据挖掘企业的一手实战剖析) PDF下载

编辑推荐

推荐购买：

　　《New Internet：大数据挖掘》

　　“这可能是*通俗易懂的一本数据挖掘书籍”
　　——互动通邓广梼 PPTV陶闯联合力荐
　　《New Internet：大数据挖掘》从互联网从业者（如电商、搜索、广告、信息服务等）角度解读大数据概念及挖掘原理，真实呈现大规模数据挖掘在当前环境下的典型应用，而非务虚的泛泛而谈。
　　大量互联网应用案例，来自作者所在企业及真实采集的实际项目。
　　读了这本《New Internet：大数据挖掘》，除了可以让企业对大数据的了解不再停留在概念上，更可以明确企业在大数据方向上的发力目标。
　　《New Internet：大数据挖掘》并不会研究高深算法，旨在用通俗易懂的案例展示大数据全貌，厘清基本概念，把握前沿技术，为专业人士进一步深入研究提供入口。

推荐购买：电子商务运营突围（打破运营僵局全面提升电商数据力）

；

内容简介

　　《New Internet：大数据挖掘》全面地介绍了如何使用数据挖掘技术从各种结构的（数据库）或非结构（Web）的海量数据中提取和产生业务知识。作者梳理了各种数据挖掘常用算法和信息采集技术，系统地描述了实际应用时如何在互联网日志分析、电子邮件营销、互联网广告和电子商务上进行数据挖掘，着重介绍了数据挖掘的原理和算法在互联网海量数据挖掘中的应用。《New Internet：大数据挖掘》主要特点：全面介绍了数据挖掘和大数据的基本概念和技术；大量采用了实际案例，实用性强；详细介绍了大数据挖掘领域*的商业应用。

作者简介

　　谭磊复旦大学计算机学士，美国杜克大学计算机硕士，在美国微软服务时间超过13年，曾经担任多家公司多个层级技术管理岗位，在搜索、互联网广告、数据挖掘、电子商务等方面有丰富的经验，是互联网技术领域资深专家。

New Internet：大数据挖掘(来自一线大数据挖掘企业的一手实战剖析) PDF下载


第1章 绪论——从淘金客到矿山主
1.1 大数据时代的“四V”
1.2　什么是大数据挖掘
1.2.1　从数据分析到数据挖掘
1.2.2　Web挖掘
1.2.3　大数据挖掘之“大”
1.3 大数据挖掘的国内外发展
1.3.1　数据挖掘的应用发展
1.3.2　数据挖掘研究发展
1.4 本书内容
第2章 一小时了解数据挖掘
2.1　数据挖掘是如何解决问题的
2.1.1　尿不湿和啤酒
2.1.2　Target和怀孕预测指数
2.1.3　电子商务网站流量分析
2.2　分类：从人脸识别系统说起
2.2.1　分类算法的应用
2.2.2　数据挖掘分类技术
2.2.3　分类算法的评估
2.3 一切为了商业
2.3.1　什么是商业智能（Business Intelligence）
2.3.2　数据挖掘的九大定律
2.4 数据挖掘很纠结
2.5 数据挖掘的基本流程
2.5.1　数据挖掘的一般步骤
2.5.2 几个数据挖掘中常用的概念
2.5.3　CRISP-DM
2.5.4　数据挖掘的评估
2.5.5　数据挖掘结果的知识表示
2.6　本章相关资源
第3章 数据仓库——数据挖掘的基石
3.1　存放数据的仓库
3.1.1　数据仓库的定义
3.1.2　数据仓库和数据库
3.2　传统的数据仓库介绍
3.3　数据仓库基本结构
3.4　OLAP联机分析处理
3.5　云存储上的数据仓库
3.5.1　Google公司的云架构
3.5.2　开源的分布式系统Hadoop
3.5.3　Facebook的数据仓库
3.5.4　NoSQL
3.6　本章相关资源
第4章 数据挖掘算法及原理
4.1　数据挖掘中的算法
4.2　数据挖掘十大经典算法
4.3　分类算法（Classification）
4.4　聚类算法（Clustering）
4.5　关联算法
4.5.1　关联算法中的概念
4.5.2　关联规则数据挖掘过程
4.5.3　关联规则的分类
4.5.4　Apriori算法的执行实例
4.5.5　关联规则挖掘算法的研究与优化
4.6　序列挖掘（Sequence Mining）
4.7　数据挖掘建模语言PMML
4.8　本章相关资源
第5章 在进行数据挖掘之前
5.1　数据集成
5.2　为何要做数据预处理
5.3　数据预处理
5.3.1　数据清理
5.3.2　数据转换
5.3.3　数据规约
5.4　本章相关资源
第6章 R语言和其他数据挖掘工具
6.1　R语言的历史
6.1.1 R语言的特点
6.1.2 R语言和数据挖掘
6.2　其他数据挖掘工具
6.2.1 MATLAB
6.2.2 其他商用数据挖掘工具
6.2.3 开源数据挖掘工具Weka
6.3　数据挖掘和云
6.4　本章相关资源
第7章 互联网上的日志分析
7.1　网站日志简介
7.2　网站日志处理
7.2.1 Web日志预处理
7.2.2 Web日志分析和数据挖掘
7.3　邮件日志
7.4　本章相关资源
第8章 数据挖掘和电子邮件
8.1　邮件营销与垃圾邮件过滤
8.2　数据挖掘和邮件营销
8.2.1 如何有效地进行邮件营销
8.2.2 邮件营销案例分享之一
8.2.3 邮件营销案例分享之二
8.2.4 运用数据挖掘RFM模型提高邮件营销效果
8.3 数据挖掘和垃圾邮件过滤
8.3.1 垃圾邮件
8.3.2 垃圾邮件过滤技术
8.3.3 垃圾邮件过滤案例
8.4　本章相关资源
第9章 数据挖掘和互联网广告
9.1　互联网广告
9.2　广告作弊行为
9.3　网站联盟广告
9.4 网站联盟广告上的数据挖掘
9.4.1 数据助力网盟广告
9.4.2 如何应对网盟广告作弊
9.5　本章相关资源
第10章 数据挖掘和电子商务
10.1　中国电子商务现状
10.2　在互联网上卖米
10.3　用数据来掌握客户
10.3.1 客户何时来、从哪来
10.3.2 客户最喜欢哪种商品
10.3.3 竞争与反竞争分析
10.3.4 客户还会买什么
10.3.5 哪些客户是我们需要的
10.4　电子商务案例
10.4.1 电子商务企业案例一
10.4.2 电子商务企业案例二
10.5　本章相关资源
第11章 数据挖掘和Web挖掘
11.1　互联网上的个性化–Like
11.1.1 Like=像
11.1.2 Like=喜欢
11.2　Web挖掘和SNS
11.2.1 SNS上的数据价值
11.2.2 SNS上的数据关联关系
11.2.3 SNS上的用户关系
11.3　数据挖掘和隐私
11.4　本章相关资源
第12章 数据挖掘和移动互联网
12.1　移动互联网的特殊性
12.1.1 锁定用户的数据价值
12.1.2 移动互联网上数据的形式
12.1.3 移动互联网地理位置信息的价值
12.2 数据挖掘和LBS
12.2.1 用PU学习算法做文本挖掘
12.2.2 用相似匹配算法做地点挖掘
12.3 移动互联网数据面临的问题
12.4 本章相关资源
附录1 技术词汇表
附录2 英语参考文献表
附录3 中文参考文献表
附录4 微博
附录5 博客和其他网址

媒体评论

本书是一本可读性极佳的教材。它从互联网广告的角度全面系统地介绍了数据挖掘的基本概念、方法和技术以及数据挖掘对互联网广告的实际意义，重点关注其可行性、有用性、有效性和可伸缩性问题。本书不仅适合作为数据挖掘和知识发现课程的教材，也非常适合作为电子商务、数据挖掘相关领域从业人员的参考资料。

　　——复旦大学计算机学院教授，博导 @黄萱菁

　　随着大数据时代的到来，数据科学家这一专业职位变得炙手可热。在2012年10月，《哈佛商业评论》甚至宣布“数据科学家是21世纪最性感的职业”。在本书中，作者基于大量实际项目开发和培训经验，借助*的互联网应用案例，深入浅出地介绍了数据挖掘领域的基本技术和常用工具。本书是数据科学家完美的入门读物。

　　——微软亚洲研究院主管研究员，博导 @谢幸Xing

　　大家都知道自己现在身处在一个信息化的时代，我们每天从传统的媒体（报纸、杂志、电视，等等）以及新媒体（互联网、网络论坛、微博，等等）获取到大量信息。在每天面对扑面而来的海量信息的同时，常常又有很多人在感叹对自己有用的或者能够让自己感兴趣的东西似乎越来越少。本书也许会为你解开这种困惑。此书深入浅出的描述了时下炙手可热的IT业界的几个词汇。

　　作为一般的读者可以把此书作为茶余饭后的读物，当你在同事朋友面前侃侃而谈“大数据”、“物联网”、“数据挖掘”等词汇时，相信定能吸引周围人的目光。当你明白数据是如何变成信息，信息是如何变成有用的信息时，或许你的生活也会变得更加多姿多彩。此书也能帮助企业的经营人员更加深刻的理解如何运用IT（信息技术）提升企业的经营，让IT更好的帮助企业决策千里。当然此书更能帮助我们这些IT从业人员深入的考虑如何运用大数据挖掘技术开发出更好的产品或者解决方案，服务于各个企业，服务于我们的社会。

　　——富士通（中国）公司战略规划部总经理黄邦瑜

　　随着云时代的来临，大数据也吸引了越来越多的关注。之前我对大数据的了解还停留在概念上，读谭磊的新书让我有了豁然开朗的感觉，明确了自己企业在大数据方向上的目标，也了解了相关的理论和方法。我相信很多关心大数据的朋友都会从书中受益良多。

　　——凤凰网CTO @吴华鹏

　　本书很认真实际的探讨了一个说起来很容易，但是实现起来却需要一个公司从上到下无缝配合才有可能完成的任务。能成功发挥大数据挖掘能力的公司/机构/政府，得到的优势就等于在别人还在用指南针定位目标的时候，你已经装备了卫星导航系统+雷达，做的决定变得更加快、狠、准。

　　这会是一个大家都努力尝试做大数据挖掘的时代，关键在于，谁能够更疯狂的热爱数据，更理性的尊重数据。

　　——小米科技联合创始人，副总裁黄江吉 @小米KKWong

　　大数据时代的到来让世界变得越来越透明，自由民主是信息社会的生态，无论是生活领域还是行政领域，大众对透明的可视化数据呈现都有迫切的需求，在企业决策、营销决策、医疗、教育等各个领域都需要大数据。大数据流行伊始，技术行业和学术界都非常需要优质的学习书籍，本书作者把自己的互联网数据工作经验与大数据行业发展结合，深入浅出，对行业发展有重大意义，是国内少见的互联网前沿研究的精品之作。

　　——Web 2.0研究者，西瓜世界创始人 @柳华芳

前沿

从接到侠少的约稿到现在已经四个月了，但对大数据挖掘的关注是远不止四个月的。很感谢侠少给我这个机会，在写书的过程中我对于大数据挖掘的理解也上升了一个台阶，因为当你试图给第二个人解释你自以为很了解的概念时会发现自己了解的深度还远远不够。第一次写完之后自己再读又发现新的需要修改的内容，如此反复多次，终于大致成稿。现在的版本中一定还有用词不恰当的地方，请各位读者海涵。

　　数据对于人们到底意味着什么？我在写书的过程中一直在思考这个问题。数据挖掘并不是一门崭新的学科，而是综合了统计分析、机器学习、数据库等多方面研究成果的应用学科。而近年来的大数据又使得数据挖掘有了革命性的发展。

　　诸行无常，诸法无我。在大数据的环境中唯一不变的是变化，我们在本书中讲述的理论和概念很可能过了两年甚至一年就会发生变化，这也是互联网时代的本质特征。

　　窃认为，写一本书，即便是教科书，也不能停留在理论层面。如果一本书写成阳春白雪那是非常失败的。自有计算机这个专业以来，做计算机理论研究和做计算机应用之间就有一道鸿沟。比如作者读书时在MachineLearning期刊上发表的PAC Learning Axis-aligned Rectangles with Respect toProduct Distributions from Multiple-InstanceExamples一文，虽然提出了一个很美丽的PAC学习算法，但是这个算法的实现性仅仅停留在理论层面。本书的初衷就是把“大数据挖掘”写成“最炫民族风”，所以书中所举的实例基本都是切实可行的实际案例，限于商业原因，我们不能详细描述全部的具体实施过程，如果读者有疑问，欢迎随时和我交流。

　　而一本书也一定不能只是信息资料和概念的堆砌。本书在陈述大数据的事实和概念的同时，也尽量揭示在这些事实和概念背后的原理和实际运用。

　　这本书不是一个人的战斗。在这本书的写作过程中，我得到了很多人的帮助。首先要感谢的是互动通HdtMedia的Michael和Clarence两位前辈对我的大力支持和鼓励，让我有力量可以写完这本书。我要感谢Microsoft总部云平台的首席开发经理陈众同学、Microsoft亚洲研究院的周礼栋博士和微软搜索技术部首席开发经理刘欣同学给本书的结构提出的修改意见。感谢复旦大学的黄萱菁博导和微软亚洲研究院的谢幸博导，他们除了在百忙之中给本书写了书评之外，还提出了宝贵的修改建议。

　　还要感谢江峰、韩冬、曹晓波、王海、荷铁勇、楼建强、李嘉骅、吴浩苗等同学帮我查找数据挖掘相关资料，鲍佳、刘晓鹏、俞舒、李悌开、戴霖和匙柟等同学帮我校验一些章节。特别要感谢董雅楠同学多次通读全书，挑出的错别字和语法问题令我汗颜，让我觉得全国普通话考试还是有必要的。

　　思美传媒的江山同学、淘宝开放平台的冯光同学、UTC的于振伟同学、车邻网的吕笋同学、火花无线的吴国鸿同学、聚流电商的周为同学和首正信息的罗俊峰同学为本书提供了大量精彩的案例和数据，在此一并表示特别的谢意。

　　Raymond @CarelessWhisper

　　2012年10月28日

免费在线读

　在研究采掘关联规则的过程中，许多学者发现在一些实际应用中，对于很多的应用来说，由于数据分布的分散性，数据比较少，所以很难在数据最细节的层次上发现一些强关联规则。要想在原始的概念层次上发现强的（Strong）和有意义的（Interesting）关联规则是比较困难的，因为好多项集往往没有足够的支持数。当我们引入概念层次后，就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息，但是对于一个用户来说是普通的信息，对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。

概念层次在要采掘的数据库中是经常存在的，比如在一个超市中会存在这样的概念层次：蒙牛牌牛奶是牛奶，伊利牌牛奶是牛奶，王子牌饼干是饼干，康师傅牌饼干是饼干等。如果我们只是在数据基本层发掘关系，{蒙牛牌牛奶，王子牌饼干}，{蒙牛牌牛奶，康师傅牌饼干}，{伊利牌牛奶，王子牌饼干}，{伊利牌牛奶，康师傅牌饼干}都不符合最小支持度。如若上升一个层级，我们会发现{牛奶，饼干}的关联规则是有一定支持度的。

我们称高层次的项是低层次项的父亲层次（Parent），这种概念层次关系通常用一个有向非循环图（DAG）来表示。这样我们就可以在较高的概念层次上发现关联规则。

根据规则中涉及的层次和多层关联的规则，我们可以把关联规则分为同层关联规则和层间关联规则。多层关联规则的挖掘基本上可以沿用“支持度－置信度”的框架。不过，在支持度设置的问题上有一些要考虑的东西。

同层关联规则可以采用两种支持度策略：

统一的最小支持度。对于不同的层次，都使用同一个最小支持度。这样对于用户和算法实现来说都比较容易，但是弊端也是显然的。