大数据分析的道与术 PDF下载

编辑推荐

本书用轻松话语讲述一线数据分析技术，既有统计方法与分析技巧，更有奇闻趣事和哲学感悟，为你的数据分析之路指点迷津。；

内容简介

我们能相信统计么？抛了5次硬币，结果都是正面，抛硬币是否肯定是正面？如何从高层的统计指标看透数据后面的本质？如何在大数据时代获取战略制高点，确定自己的职业发展定位？从一个互联网公司数据分析师的成长经历，为您娓娓道来，数据分析中的奇闻趣事、心得总结、方法技巧与哲学感悟。

作者简介

百度资深数据技术专家，在检索系统、在线广告、商业营销等领域有丰富的大数据分析和建模经验。曾因对百度的杰出贡献，获得首届百度百万美金最高奖，并多次获得技术创新奖。专注于理论与实践的结合，涉猎大数据技术、经济与商业机制、互联网产品战略、营销策略等多个领域，深究其根源并擅长跨界思考。乐于分享，百度技术学院的明星讲师，开设课程《大数据分析的道与术》、《经济学与互联网商业产品设计》和《机器学习的思考故事》等。

大数据分析的道与术 PDF下载

目 录第一篇 道 1第1章 大数据分析之道 21.1 做好数据分析的关键 31.2 业务调研 101.3 创新思考 141.4 逻辑推理 251.5 可行建议 481.6 补充阅读：数据分析报告的撰写要点 51第二篇 术 63第2章 统计是怎么发明的？ 642.1 重启思维模式 652.2 统计的意义及指标 712.3 统计图形是如何设计的？ 102第3章 我们能相信统计吗？ 1153.1 统计可信吗？ 1163.2 基于概率的信任 1203.3 如何实现基于概率的信任？ 1263.4 应用理念：细致与置信的权衡之道 1403.5 评估：正确的认识世界 1443.6 设计统计方案中的方法论 156第4章 统计分析方法 1594.1 拆指标-1 分布分析 1614.2 拆指标-2 趋势分析 1654.3 拆指标-3 因素分析 1774.4 拆数据-1 个案分析 1864.5 拆数据-2 异常分析 1884.6 拆数据-3 分组分析 1934.7 附加阅读：消费者偏好和企业差异化战略 1974.8 不同分析方法的结合与创新 2094.9 与领域相关的分析方法 213第5章 数据分析的高级工具：OLAP与机器学习 2205.1 OLAP技术 2215.2 无监督学习模型 2255.3 监督学习模型 234第三篇 释 287第6章 大数据时代 2886.1 大数据的价值 2896.2 企业如何向数据技术转型？ 3016.3 数据技术的职业发展 315第7章 数据技术团队组建和发展 3317.1 自我修炼与领导团队 3327.2 数据技术团队的组织结构 3347.3 数据技术团队发展中的优劣势 336

前沿

序李湛自从2011年麦肯锡提出大数据是未来之星，这几年里，大数据俨然越来越火。不同于其他转瞬即逝的概念，大数据能持续火爆，的确有缘由在。信息产业的发展，使数字化记录变得容易；互联网的爆发，使越来越多社会和个人的行为转移到线上，线上化又天然是数字化的过程。如今若不考虑隐私问题，通过线上数据准确勾勒一个人已非常容易。另一方面，硬件计算能力的提升，以及以Hadoop为代表的分布式软件计算能力的提升，使超大规模数据存储和计算不再成为瓶颈。自然语言、声音、图像和视频技术近年发展迅猛，充分反映了软硬件能力的提升。同时，大数据也在确确实实地革新行业，比如营销领域。短短十几年，以Google为首的互联网媒体，充分挖掘了数据的价值，实践和发扬了计算广告这一新兴领域，颠覆了营销行业格局，以营收计，Google已经成为世界上最大的广告公司。大数据的价值，已经被事实证明。从营销行业的经验看，数据想要产生价值，有两个关键点：第一，特征能被数字化；第二，目标能量化。大数据的目的是通过数据解决业务问题，这就首先需要业务能被数字化地描述和记录。而且，数据的价值跟其充分程度是乘数级关系，数据越“大”越有价值。同时，业务上要解决的问题需要是清晰的，目标量化就是清晰化。有了量化的目标，形成优化的闭环，数据的价值就能不断加强。数字营销领域，数据化程度高，覆盖人群充分，具备了第一个要素。数字营销的目标又很清楚：媒体获得最大的媒体价值、广告主获得最具性价比的投资回报，这些可以用CPM、ROI等做较为准确的量化描述。这样，又具备了第二个要素。金融领域、电商领域也是类似。只要能充分数据化，目标能量化，能不断持续优化，数据就能发挥巨大的价值。在营销领域，大数据提升的是精准性，本质是效率改进。在内部运营领域，大数据也能提升精准性，本质也是效率改进。这也解释了大数据在中国为什么会上升到国家战略：大数据的本质是对效率的提升，是对精细化的追求。我国的很多行业过去享受了太多政策、人口之类的红利，粗放经营也能发展得很快。可如今面临经济转型，精细化才有竞争力。在中国，大数据是一个双肩Gartener曲线，第二个热度就是来自于政府在2015年的大力提倡。为什么提倡？就是因为大数据是促进经济转型的发动机。数据的另一层价值，在于“连接”。不同的行业，就好像不同的语言，如果没有翻译，就很难做信息交换，自然很难碰撞出价值。而业务数据化的过程，就是翻译的过程，不同的行业、业务问题，都被统一的语言——“数据”来描述了，跨行业的交流就变得容易，创造价值的机会也出现了。此时，数据的互通互联还要解决抽象层次、结构化、交换标准等问题，但解决这些问题就像解决方言问题一样，难度已经降维成工作量了。如今的大数据创业，基于数据交换和交易、公私数据结合进行价值挖掘的方向发展得很快，就是因为其能创造“连接”的价值。这也解释了，为什么大数据与互联网+的结合是天然有机的。跨行业跨领域的创新，数据化程度本已很高的互联网和数据潜力巨大的实体行业的碰撞和创新，自然需要大数据作为基础支撑。大数据的热度之一体现在资本的角度。不管A股市场还是创投领域，大数据类的企业都受到追捧，经常能获得高溢价。热度之二体现在注意力的角度。如今“大数据”这个词几乎已是家喻户晓，虽然事实上很多人还不太明白大数据本质是什么。这些热度有副作用，但也有好处：资本会加速市场的成熟，注意力会使得市场教育的难度降低。市场的发展既有必然性又有偶然性，这两个热度都会增加必然性的概率，终究是好事。当市场环境大好，自身的判断力就变得重要。如何去提升对大数据的判断力？本书就是最好的途径。细细读下来，感觉本书有以下几个特点。第一，重根本。本书不堆砌概念，不讲求大而全，甚至不讲求论述的严谨性和行文上的优美，但善于从原理讲起，重在剖析根本。“知其所以然”是最好的理解和记忆。第二，娓娓道来。本书的话题其实严肃甚至深奥，但作者把自己学习、思考的过程分享出来，从容而自然，让读者有很强的代入感。学习可以是教科书式的枯燥，也可以是娓娓道来的轻松，考验的就是作者的功力。第三，重实战。作者在广告大数据领域浸润多年，书中到处可见实战而来的经验或者示例，鲜活而深刻。在轻轻松松中学习，理解其本质，辅以实战的案例，阅读本书的过程，愉快而又受益。我之前与作者共事时，同事们都称作者为“毕老师”。看似玩笑，却十分贴切。作者乐于分享，更重要的是擅长分享，本来复杂的概念，在他一剖一析之间，听者茅塞顿开。这种感觉，在我多年求学的生涯里，只寥寥数次。非常欣喜地看到作者新书的问世，直接向身边的人分享，范围始终有限，沉淀为书，分享的能力圈就大了很多。写书从来不是个轻松的生意，机会成本高，性价比差，也只有责任感和享受分享的乐趣才是作者最大的动机。为人师，乐分享，善莫大焉。李湛（曾任百度研发总监，现任游族首席技术官）自序我在互联网行业工作7年，虽然很早就开始积累本书的内容，相关讲座也大受欢迎，但并没有成书的想法。由于一个偶然的契机，感觉需要通过成书来更好地使自己的积累体系化，同时为数据技术的传播贡献一点自己的力量，所以有了此书的面试。数据分析是一种非常通用的技能，所有存在数据分析需求的产品、研发、销售、运营及管理人员等都是本书的受众。尤其适合有一定的基础或实践，想系统化地提升能力和扩大视野的同学。另外，本书的后半部分适合期望了解大数据理念和技术精髓的高层管理者。全书按照“先道后术，以道驭术”的结构组织。第一篇：数据分析之道分为“业务调研”、“创新思考”、“逻辑推理”、“可行建议”四个关键要素来讲述，从“业务”出发到“业务”落地，完整地介绍有效数据分析的核心原则，对应本书的第一章。第二篇：数据分析之术按照“统计指标是怎样被发明的”，“能否相信统计推断”、“如何运用统计分析”和“统计建模等高级工具”四个要素来组织，内容由浅入深，遵循人类了解事物的逻辑：“怎么来的→能使用吗→怎么使用→深入方法”，分别对应第二、三、四、五章。第三篇：数据分析之释，谈谈一些数据技术从业者的常见问题，包括大数据的价值、企业如何向数据技术转型、个人在数据行业中的职业选择、以及数据技术团队的管理经验，对应书籍的第六、七章。我创作本书有三个鲜明的风格。风格1：写一本既讲“是什么”也讲“为什么”的书，谈“知识”也谈“思考”的书。在《苏菲的世界》一书中关于“哲学家和好奇心”有一段话：“尽管我们都想过哲学性的问题，却并不一定每个人都会成为哲学家。由于种种理由，大多数人都忙于日常生活的琐事，因此他们对于这世界的好奇心都受到压抑。”孩子和哲学家均持有对世界的好奇心，只是大部分孩子在成长的过程中失去了它，而哲学家则一直没有放弃。在现实生活中，普通人太习惯于生活周围发生的事情了，导致我们只是被动地接受知识和事实，却甚少思考“为什么”。如我学习游泳和滑雪的亲身经历，教练在蛙泳教学时，指示手脚要在时间上间隔开运动，但从未解释为什么要这样做。实际上，在手划水的时候腿处于伸直、夹紧的状态（腿的阻力最小），而蹬腿划水的时候，手处于向前伸直的状态（手的阻力最小），使得两者推进的力气不互相干扰，身体一直处于直线型，运动效率最高。很多初学者都爱犯这个错误，手脚滑动频率很高、很费力，但速度快不起来，因为手脚互为阻力，身体总处于张开的状态。教练在滑雪教学的时候，讲述拐弯的做法是将身体重心转移到单脚上，另外一只脚虚悬，即单脚滑雪，但他同样没有解释为什么。实际原因是重力较大的那只滑板速度会变快，而一只滑雪板速度快，另一只滑雪板速度慢，整个身体自然会发生旋转。如果两位教练能把这些原理的前因后果讲清楚，相信大家学习游泳和滑雪的时候会更有体会，也学得更快。很多事情的结果很重要，但思考过程更重要。以我个人感觉，数学史比数学更启迪人的思维。真心期望在高中和大学的数学课本中，减少一些知识的教学，而增加数学史的内容。因为数学知识只是思考的成果，而数学史才是思考的过程。例如翻开高中代数或几何的课本，翻开大学微积分或线性代数的课本，会发现教科书以非常清晰的结构，完整地组织了这些知识成果。但科学家是怎样研究发明这些知识的？研究过程是从第一章到最后一章顺序进行的吗？他们碰到了什么实际问题，怎样进行思考的？为何这些学科的知识呈现出现在的样子？这些内容才是真正重要的，因为它使我们学习到科学家的思考方式，而不是思考结果。近两年一些领域出现的科学史作品，如《上帝掷筛子吗：量子物理史话》，正是这样的写作方式，给我带来很大启发。所以，本书是一本注重讲解数据分析思想的书。相信读者先学习数据统计的思想，再去学习数据统计知识，会有庖丁解牛之感，如果这本书能够达到这样的效果，也是我最大的期望。风格2：写一本“快乐”的书，而不是“刻苦”的书。先与大家分享两个故事和自己的心得。故事1：有个老人习惯每天在公园的角落静静地享受静谧时光。突然某天来了一群孩子，非常快乐、非常吵闹地在公园角落这玩泥巴。由于小孩子天天大声吵闹，老人感觉自己的生活被严重打扰了，于是想了一个办法。第一天和孩子们说，“你们欢乐地玩耍让我看着非常舒心，以后你们每天都来玩吧，我给你们10美元一天”。孩子们乐坏了，很高兴地答应了。到了第二周，老人又说“我最近手头有点拮据，只能每天给5美元了”。孩子们想了想也可以接受，依然每天来玩耍。到了第三周老人把金额降到了2美元，直到第四周老人和孩子们说“我的经济条件其实不太好，以后能不能就不给大家钱了，让我免费看大家玩耍呢？”。孩子们纷纷大怒“我们这么用心、这么累地玩耍，容易吗？！”，之后再也不来公园这边玩了。老人最终获得了自己想要的清净。故事2：小时候写作文，老师拟定的题目是《爱迪生：成功是99%的汗水+1%的灵感》，记得所有同学的文章都从各种角度写“爱迪生平时工作多么多么的刻苦，毅力是多么多么的强大，值得我们学习！”，总结一句话：人要想成功，必须十分刻苦才可以！长大以后，发现实

免费在线读

当心！“数据”一样会说谎！例2：一所艺术学校，男生校服只有裤子款式（100%选裤子），而女生校服有裙子和裤子两种款式，经统计得知75%的女生选裙子款，25%选裤子款。今天进入校园，远远看到一个穿裤子的同学，他是男生的概率高？还是女生的概率高？根据之前讲座交流的经验，对于第一次阅读这份数据的朋友，大都判断该同学更可能是男生。但如果我把所有的数据细节都透露出来，大家的结论会不会有变化呢？例2的完整数据：艺术学校有女生900人，男生100人。看到一个穿裤子男生的概率为10% × 100% = 0.1，而看到一个穿裤子女生的概率为90% × 25% = 0.225，所以远远看到一个穿裤子的同学，他更有可能是女生！例2只公布了似然概率，却隐藏了先验概率信息，使人的判断发生迷惑。什么是似然概率和先验概率呢？这涉及到统计学中的贝叶斯公式，描述一件事物发生的概率与两个概率相关，先验概率和似然概率。数学表示：P(h1 | D) ∝ P(h) × P(D | h)假设h代表我们对某个事物的判断，如果有两个判断（如某同学是男或是女），可以写为h1、h2。数据D表示观测到的统计数据。P(h|D)表示看到数据D后，判断假设h为真的概率。P(D|h)表示判断假设h为真的情况下，观测到数据D的概率。那么，贝叶斯定理说明了“观测到数据D，判断假设h为真的概率”，与“假设h天然出现的概率（P(h)，称为先验概率）”和“假设h为真的情况下，观测到数据D的概率（P(D|h)，称为似然概率）”成正比。其实更准确的公式是 P(h | D) = P(h) ×P(D | h) /P(D)，因为对于不同的假设h，数据D天然出现的概率P(D)均相同。其对判断“哪个假设h更可能是真的”不起作用，通常可以忽略。回到艺术学校的例子，观测数据D =看到该同学穿的是裤子，假设 h1=他是男生，假设h2=她是女生。因为艺术学校男生有100人、女生有900人，所以先验概率 P(h1) =10%、P(h2)=90%。因为男生 100%会选择裤子，女生 25%会选择裤子，所以似然概率P(D | h1) =100%、P(D | h2) =25%。那么，校园中随意看到了一位穿裤子的同学，他是男生的概率近似：P(h1 | D) = P(h1) × P(D | h1) = 10% × 100% = 0.1她是女生的概率近似：P(h2 | D) = P(h2) × P(D | h2) = 90% × 25% = 0.225可见女生的概率要比是男生的概率高1倍多，这位穿裤子的同学更可能是女生! 注释：上述计算亦可以加上P(D)的考量，会得到精确的概率结果。女生有225人穿裤子，男生100人穿裤子，校园1000名学生中穿裤子的概率P(D)为32.5%。将上述近似值除以P(D)，得到他是男生的概率为30.8%，她是女生的概率为69.2%，之间的差距比例是一致的（0.1/0.225 = 30.8%/69.2%），所以通常可以省去计算P(D)。从这两个例子可见，隐藏一部分数据，只展示部分维度时，可能会诱导人们得出完全不同的结论。在某些场景下，更细节的相关信息是不能忽略的，隐藏了部分事实就相当于说谎。很多数据分析工作均需要全面细致的数据信息才能做出正确的判断。