欢迎光临
免费的PDF电子书下载网站

大数据分析的道与术 PDF下载

编辑推荐

本书用轻松话语讲述一线数据分析技术,既有统计方法与分析技巧,更有奇闻趣事和哲学感悟,为你的数据分析之路指点迷津。 ;

内容简介

我们能相信统计么? 抛了5次硬币,结果都是正面,抛硬币是否肯定是正面?如何从高层的统计指标看透数据后面的本质?如何在大数据时代获取战略制高点,确定自己的职业发展定位?从一个互联网公司数据分析师的成长经历,为您娓娓道来,数据分析中的奇闻趣事、心得总结、方法技巧与哲学感悟。

作者简介

百度资深数据技术专家,在检索系统、在线广告、商业营销等领域有丰富的大数据分析和建模经验。曾因对百度的杰出贡献,获得首届百度百万美金最高奖,并多次获得技术创新奖。专注于理论与实践的结合,涉猎大数据技术、经济与商业机制、互联网产品战略、营销策略等多个领域,深究其根源并擅长跨界思考。乐于分享,百度技术学院的明星讲师,开设课程《大数据分析的道与术》、《经济学与互联网商业产品设计》和《机器学习的思考故事》等。

大数据分析的道与术 PDF下载

目录

目 录第一篇 道 1第1章 大数据分析之道 21.1 做好数据分析的关键 31.2 业务调研 101.3 创新思考 141.4 逻辑推理 251.5 可行建议 481.6 补充阅读:数据分析报告的撰写要点 51第二篇 术 63第2章 统计是怎么发明的? 642.1 重启思维模式 652.2 统计的意义及指标 712.3 统计图形是如何设计的? 102第3章 我们能相信统计吗? 1153.1 统计可信吗? 1163.2 基于概率的信任 1203.3 如何实现基于概率的信任? 1263.4 应用理念:细致与置信的权衡之道 1403.5 评估:正确的认识世界 1443.6 设计统计方案中的方法论 156第4章 统计分析方法 1594.1 拆指标-1 分布分析 1614.2 拆指标-2 趋势分析 1654.3 拆指标-3 因素分析 1774.4 拆数据-1 个案分析 1864.5 拆数据-2 异常分析 1884.6 拆数据-3 分组分析 1934.7 附加阅读:消费者偏好和企业差异化战略 1974.8 不同分析方法的结合与创新 2094.9 与领域相关的分析方法 213第5章 数据分析的高级工具:OLAP与机器学习 2205.1 OLAP技术 2215.2 无监督学习模型 2255.3 监督学习模型 234第三篇 释 287第6章 大数据时代 2886.1 大数据的价值 2896.2 企业如何向数据技术转型? 3016.3 数据技术的职业发展 315第7章 数据技术团队组建和发展 3317.1 自我修炼与领导团队 3327.2 数据技术团队的组织结构 3347.3 数据技术团队发展中的优劣势 336

前沿

免费在线读

当心!“数据”一样会说谎!例2:一所艺术学校,男生校服只有裤子款式(100%选裤子),而女生校服有裙子和裤子两种款式,经统计得知75%的女生选裙子款,25%选裤子款。今天进入校园,远远看到一个穿裤子的同学,他是男生的概率高?还是女生的概率高?根据之前讲座交流的经验,对于第一次阅读这份数据的朋友,大都判断该同学更可能是男生。但如果我把所有的数据细节都透露出来,大家的结论会不会有变化呢?例2的完整数据:艺术学校有女生900人,男生100人。看到一个穿裤子男生的概率为10% × 100% = 0.1,而看到一个穿裤子女生的概率为90% × 25% = 0.225,所以远远看到一个穿裤子的同学,他更有可能是女生!例2只公布了似然概率,却隐藏了先验概率信息,使人的判断发生迷惑。什么是似然概率和先验概率呢?这涉及到统计学中的贝叶斯公式,描述一件事物发生的概率与两个概率相关,先验概率和似然概率。数学表示:P(h1 | D) ∝ P(h) × P(D | h)假设h代表我们对某个事物的判断,如果有两个判断(如某同学是男或是女),可以写为h1、h2。数据D表示观测到的统计数据。P(h|D)表示看到数据D后,判断假设h为真的概率。P(D|h)表示判断假设h为真的情况下,观测到数据D的概率。那么,贝叶斯定理说明了“观测到数据D,判断假设h为真的概率”,与“假设h天然出现的概率(P(h),称为先验概率)”和“假设h为真的情况下,观测到数据D的概率(P(D|h),称为似然概率)”成正比。其实更准确的公式是 P(h | D) = P(h) ×P(D | h) /P(D),因为对于不同的假设h,数据D天然出现的概率P(D)均相同。其对判断“哪个假设h更可能是真的”不起作用,通常可以忽略。回到艺术学校的例子,观测数据D =看到该同学穿的是裤子,假设 h1=他是男生,假设h2=她是女生。因为艺术学校男生有100人、女生有900人,所以先验概率 P(h1) =10%、P(h2)=90%。因为男生 100%会选择裤子,女生 25%会选择裤子,所以似然概率P(D | h1) =100%、P(D | h2) =25%。那么,校园中随意看到了一位穿裤子的同学,他是男生的概率近似:P(h1 | D) = P(h1) × P(D | h1) = 10% × 100% = 0.1她是女生的概率近似:P(h2 | D) = P(h2) × P(D | h2) = 90% × 25% = 0.225可见女生的概率要比是男生的概率高1倍多,这位穿裤子的同学更可能是女生! 注释:上述计算亦可以加上P(D)的考量,会得到精确的概率结果。女生有225人穿裤子,男生100人穿裤子,校园1000名学生中穿裤子的概率P(D)为32.5%。将上述近似值除以P(D),得到他是男生的概率为30.8%,她是女生的概率为69.2%,之间的差距比例是一致的(0.1/0.225 = 30.8%/69.2%),所以通常可以省去计算P(D)。从这两个例子可见,隐藏一部分数据,只展示部分维度时,可能会诱导人们得出完全不同的结论。在某些场景下,更细节的相关信息是不能忽略的,隐藏了部分事实就相当于说谎。很多数据分析工作均需要全面细致的数据信息才能做出正确的判断。

大数据分析的道与术 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据分析的道与术