欢迎光临
免费的PDF电子书下载网站

大数据时代小数据分析 PDF下载

编辑推荐

《大数据时代小数据分析》可帮助你学会通过数据分析解决以下问题:

  为什么出口产品被退运?

  如何运用已有的销售数据来确定未来进货,进设备,扩充门面?

  鸡兔同笼问题原来还可以这样解决?

  假设某家工厂生产某系列3种型号的产品。这3种产品的使用原材料相同,但材料消耗量和产品市场销售价格有所不同,那么如何安排生产能使利润更大化?

  某产品如何选择5种原有原料进行配比可以使得产品满足质量要求的情况下成本更小?

  如何测算投资更大收益化?

  如何做一个精明的老板,如何决定各种产品生产的数量以获取更大的利润?

  如何根据今年的销售确定明年进货才能使利润更大化?

  公司如何搬家又省力又省钱,还能照顾所有人情绪?

  吃海参能让人变聪明吗?

  用户调查当中如何知道支出与收入有什么关系?

  如何配比各种原料使产品的用户体验更佳?

  咖啡商如何添加辅料,既可以改善口感,又可以降低咖啡因含量?

  如何选择适合自己的早餐?

  海拔是否影响血压?

  哪些熊猫已足够强壮到可以适应野外生活?

  如何找男友?

 ;

内容简介

本书是一本大数据时代下进行小数据分析的入门级教材,通过数据分析的知识点,将各类分析工具进行串联和对比,例如:在进行线性规划的时候可以选择使用Excel或LINGO或Crystal Ball。工具的应用难易结合,让读者循序渐进地学习相关工具。JMP和Mintab用来分析数据,分析的结果使用Excel、LINGO、Crystal Ball来建立数据模型,最后使用Xcelsius来动态展示数据分析的结果。书中以两个人的对话为叙述方式,场景描写多,容易进入学习状态,完全是用生动的故事和实用的案例尽可能地贴近生活和工作,让数据分析生动有趣,基本上有高中数学知识就可以理解线性规划等数据分析内容。

  本书不仅介绍Excel而且介绍使用其他工具软件进行数据分析,可用来拓展互联网公司、传统企业、电商企业、管理咨询公司等各行各业从事数据分析工作的分析师和管理者对数据分析的认知,也适合初中级数据分析师或者想进入数据分析行业的有志之士参考阅读。

作者简介

屈泽中,化工专业,数据分析爱好者,爱好使用工具探索数据背后的秘密,略懂Excel、LINGO、Crystal Ball、JMP、Minitab、Xcelsius,工作十余年,一直从事将数据分析与各类业务相结合的研究和学习。

大数据时代小数据分析 PDF下载

目录

第1章 知己知彼,百战不殆——风险与预测分析 
1.1 预测从世界杯开始
1.2 手机绑定消费的秘密
1.3 笔记本电脑出国冒险记
1.4 慧眼识分布
1.5 分布72变
1.6 做最优秀的面包店长
第2章 运筹帷幄,决胜千里——效益最大化
2.1 换个思路来数鸡
2.2 做一个精明的农场主
2.3 见识LINGO与Crystal Ball的威力
第3章 图个明白,精彩展现——JMP精彩图表
3.1 图个明白——常用图形
3.2 图个明白——树图
3.3 图个明白—— SPC图 214第4章 抽丝剥茧,明察秋毫——相关分析
4.1 假设检验——大胆假设,小心求证
4.1.1 小心求证—均值检验
4.1.2 小心求证—比例检验
4.1.3 小心求证—非参数检验
4.2 相关与回归分析
4.2.1 相关性与第三方变量
4.2.2 收入与支出关系—简单线性回归
4.2.3 最佳口感食品配方—多元线性回归
4.2.4 咖啡好喝,不能多喝—非线性回归
4.2.5 预防心血管疾病从减肥开始—二值Logistic回归分析
4.3 人以类聚,物以群分——聚类分析
4.3.1 美好一天从早餐开始—观测值聚类分析
4.3.2 海拔是否影响血压—变量聚类分析
4.3.3 为熊猫分类—K均值聚类分析
第5章 要里子,也要面子——数据展现的艺术
5.1 哪种水果更好卖
5.2 书店利润最大化
5.3 非诚勿扰——最佳男友模型

前沿

序 言
  笔者自2008年的一个偶然机会第1次接触“数据挖掘”(Data Mining)这个新名词以来,在数据挖掘应用相关领域度过了6年。笔者的专业是化工,整天应该与塔、釜、换热器、化学反应和物料守恒等打交道。开始接触这个专业的目的是为了利用数据分析的一些功能来优化生产运营,让企业以更高的效率、更低的成本和更好的质量运营,为此需要数据积累、数据分析和数据模型。
  2008年,国内企业在数据挖掘应用中摸索起步,远不如现在大数据火热。如今大数据最火的商业应用主要集中在互联网、银行和电信等领域。基于行业应用限制,笔者无法接触到真正的大数据挖掘,但是幸运的是还是碰到了职业和兴趣的重合点。
  这几年的摸索是笔者职业生涯中很重要的一段时光,因此有必要将自己一路走来的心得与体会、感悟和挫折整理出来,一则是对自己的这段职业生涯做一个交代,特别是对一路引导、鼓励和支持笔者的师友和家人;二则是合理地引导类似笔者半道出家的学习者,对数据分析有兴趣却没有深厚的统计学知识和IT功底人士,笔者相信本书的内容对于广大对数据分析应用感兴趣的初学者来说都是一种宝贵经验。在学习数据分析的道路上笔者深刻认识到一个道理,即一个成功的数据分析实践的核心因素不是数据分析技术,而是对业务理解和分析思路。这也是当初学习数据分析的初衷,初学者切不可为数据分析而分析数据。
  大数据挖掘需要精通数据库、计算机编程和深厚的统计学基础,有的甚至涉及运筹学范畴,是一门复合型的应用科学。大数据的案例现在是一抓一大把,如国外典型的“啤酒与尿布”的案例,在了解数据分析之前不妨来看看几个有趣的应用案例。
  (1)数据新闻让英国撤军
  2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”,即将伊拉克战争中所有的人员伤亡情况均标注于地图之上,地图上一个红点代表一次死伤事件。用鼠标单击红点后弹出的窗口则有详细的说明,包括伤亡人数、时间和造成伤亡的具体原因。密布的红点多达39万个,显得格外触目惊心,如图0-1所示。此新闻一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。

  图0-1 伊拉克战争中所有的人员伤亡情况
  (2)大数据与乔布斯癌症治疗
  乔布斯是世界上第1个对自身所有DNA和肿瘤DNA进行排序的人,为此他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了几年的生命。
  (3)Google成功预测冬季流感
  2009年,Google通过分析5 000万条美国人最频繁检索的词汇将其和美国疾病中心在2003—2008年间季节性流感传播时期的数据进行比较。并建立了一个特定的数学模型,最终成功预测了2009冬季流感的传播,甚至可以具体到特定的地区和州。
  (4)奢侈品销售
  PRADA在纽约的旗舰店中每件衣服上都有RFID码,每当一个顾客拿起一件PRADA进入试衣间,RFID会被自动识别;同时数据会传至PRADA总部。每一件衣服在哪个城市、哪个旗舰店、什么时间被拿进试衣间和停留多长时间,数据都被存储起来加以分析。如果一件衣服销量很低,以往的做法是直接收回;如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多,则说明这件衣服的下场会截然不同,或者在某个细节的微小改变就会重新制造出一件非常流行的产品。
  除了国外这些经常用于商业培训课程的案例外,数据分析其实并不遥远,在国内也不乏应用。例如,共和国的开国元帅林彪就曾经依靠敏锐的数据嗅觉和军事天赋成功捣毁敌营总部。
  目前国内的大部分高校还没有开设数据挖掘这门专业课程,大数据分析需要依靠庞大的数据库,即需要各专业的人士通力合作,是一个团队作业。类似笔者这种半道出家的个人学习者在不具备团队协作的条件下,可以在样本数据的分析下工夫,样本数据也可以称为“小数据”,因此本书的名称定为《大数据时代的小数据分析》。
  本书主要介绍应用数据分析的一系列工具,如:Excel、LINGO、Crystal Ball、JMP、Minitab和Xcelsius等,涉及的分析有预测、风险分析、优化求解、假设检验、相关分析、回归分析和聚类分析等。但所有这些软件都不是最新版本,如Excel使用2010版;Minitab使用的V15版。在使用软件时最重要的不是版本的最新,而是理解其功能和特点,灵活地运用。即使是Excel 2003版本,只要运用得当,同样能发挥强大的功能。很多不同功能的软件都可以完成,本书主要结合不同软件的不同特点介绍其应用。
  书中涉及一些专业名词和原理,如标准差和假设检验等,本书没有给出生涩难懂的定义,而只是通俗地解释这些名词。这样做原因有二:一则作为半道出家的笔者不愿,也不会定义这些理论;二则定义这些名词或原理只会让本来就让人头疼的数据分析显得更加枯燥。如果读者需要准确理解这些专业名词,可以参考其他资料。
  本书中列举的一些应用都是尽可能地贴近生活和工作,让数据分析看起来尽可能有趣一些,在排列各章节的顺序时也尽量遵循软件的功能之间的逻辑关系。
  本书在每一章均会应用一些有趣的案例引出讨论的重点,其中两人按照师徒问答的形式模拟实际工作中的场景循序渐进地学习分析工具,让枯燥的数据分析显得生动一些。
  本书适合的读者如下。
  (1)对数据分析应用有兴趣的人士。
  (2)对统计、数学和码农等深奥理论不感兴趣者。(3)想尝试自身专业的数据分析,提高技能者。
  (4)想尝试数据分析工作并寻找切入点者。
  本书不适合的读者如下。
  (1)喜欢拍脑袋和胸脯者。
  (2)见了数据就想呕吐者。
  (3)爱好SAS/R/Python等豪门软件的狂热者。
  (4)统计、数学和IT专业的大牛。
  (5)对数据有深刻理解的科学家。
  笔者是从化工这个与数据分析无关的专业开始学习数据分析的,相信只要读者能静心地读完本书也会有所收获。但是不能指望数据分析能解决所有的问题,它不是万能的。一个成功的数据分析实践的核心因素不是数据分析技术,而是对业务的理解和分析思路。
  全书的原理讲解和工具操作同步,即在操作软件的同时理解其原理;列举的案例涵盖多个行业,根据案例引出所需要讨论的知识点;然后根据知识点举一反三,串联尽可能多的数据分析入门知识;同时将介绍其适合的分析工具。
  由于笔者的水平有限,对数据分析的理解不够透彻,加之编写时间仓促,因此书中难免会出现一些错误或不准确之处,恳请读者批评指正。

免费在线读

做最优秀的面包店长
  花小姐的面包店是一家位于上海浦东区且迅速增长的面包店,它设立于2007年3月。花小姐是一个非常细心的店长,从开业以来一直在Excel工作簿中仔细记录店内3种主要产品的销售数据,即法式面包、意大利式面包和匹萨。经过几年的经营积累,她的门店已经小有规模。现在她想改进,但是受库存地点限制必须预测未来的产品市场,并依此对人员和库存等进行战略性和长远的决策。决策的依据基于她所做的数据积累,即通过分析数据中的规律来改进。
  花小姐预测的最初目的是要保持足够的原料,以满足店内生产的要求。以往面包原材料会定期向供应商购买,并在大量购买时得到折扣。如果店内产品销售过旺,原材料就会紧缺;反之会有多余库存。所以必须保持库存和产品的平衡,以保证产品始终用最新鲜的配料来进行生产。
  3种产品需要的原料大致一样,主要是面粉、酵母和食盐。如果不预测市场,就会导致原材料的需求量忽高忽低。原材料供应商也有可能会因此提高价格,所以预测产品市场不仅仅能保证材料的新鲜度,还能最大程度地降低成本。
  有了对产品市场的预测,花小姐需要购买原材料时也能保证其产品的质量,因此需要有效地预测未来的销售收入。她在Excel电子表中记录了每种产品从2007年3月份开始至今的日常销售数据并保存在“面包店经营”工作簿的“销售数据”工作表中。
  花小姐以表中的原始数据为基础,将自2007年以来的原始数据整理为3种产品以周为时间周期的数据。周产品销售数据保存在“运营”工作表中,并且注明了原料的名称。通过创建这个数据表花小姐想对未来几周的产品的销售情况进行预测,周销售数据表如图1-110所示。
  该面包店已经收到这个月的订货,花小姐必须要在这个月确定本月和下个月的原材料订单,因此必须预测未来两个月内的销售。她现在有173 周的销售数据,需要预测未来8周的销售数据。
  (1)建立Excel模型
  在未来两个月花小姐没有调整产品价格的计划,每种产品的单位质量和单价不变,因此预测原料的需求量首先要知道3种商品的销售量。建立该数学模型的思路为:商品销售预测→商品重量预测→原材料预测。
  说明如下。
  单元格B39:E213区域为2007年3月份以来3种产品每周的销售数据。
  C9单元格用于统计预测的未来4周内法式面包的销售收入,在其中输入“=SUM(INDEX($B$41:$E$299,$C$3,2):INDEX($B$41:$E$299,$C$3 3,2))”。
  在C3单元格内输入开始的周数,初始设置为174,即最后一周。
  C10单元格用于统计预测未来4周内意大利式面包的销售收入,C11单元格用于统计预测未来4周内匹萨的销售收入。
  D9:D11单元格区域内为每种商品的销售单价,这样用销售收入除以单价即可知道销售数量。
  在E9单元格内输入公式“=C9/D9”,其他依此类推;F9:F11单元格为每种商品的单位重量,数量乘以单位重量可以知道每种商品的重量;在G9单元格内输入公式“=E9*F9”,其他依此类推。
  B14:E27单元格区域计算每种商品需要的原料,按照每种商品需要的原料组成计算;在C15单元格内引用G9单元格数据;在E16单元格内输入公式“=$C$15*D16”计算法式面包需要的原料面粉的数量,其他原料成分计算依此类推;在D31单元格内输入公式“=SUM(E16,E20,E24)”将3种商品的面粉原料求和,这是需要供应商提供的原料采购的数据。
  (2)预测设置
  选择B39:E213单元格区域内的任一单元格,选择Crystal Ball菜单中的【Predictor】选项。
  系统自动选择数据表格所在的位置,单击【Next】按钮,选择【Data Attributes】选项。
  保留系统默认值,单击【Next】按钮,显示【Methods】视图。
  该视图主要用于设置数据预测的方法,有时间序列的数据选择【Non-seasonal Methods】和【Seasonal Methods】选项。
  (3)查看分析结果
  在【View】下拉菜单中选择有关选项查看各产品的销售情况,法式面包明显有趋势而无周期;意大利式面包既有周期,也有趋势性。为了预测准确,选择所有预测方法,由系统来确定最佳的方案。选择【ARIMA】复选框,单击【Run】按钮。
  每种产品的预测数据不同,使用的方法也不同。在预测周期【Periods to forecast】微调框中设置8,即预测8个周期。【Method】下拉列表框中显示最佳的分析方法,单击【Paste】按钮保存预测结果。
  在【Location】选项组中选择将预测数据放在原历史数据的后面或指定单元格区域,选择【At end of historical data】单选按钮。单击【OK】按钮,3组预测数据复制到“运营”工作表中的数据表中。
  3种商品的预测重量及原料的采购数量在数据模型中均已完成计算。
  根据在模型中预测计算出未来两个月的原材料需求量,此时一定会根据现有的库存和原材料的新鲜程度来指定最佳的订货数量。
  现金流对于门店经营的重要性不言而喻,花小姐也会详细记录每个月的现金流。这样不仅可以帮助她管理预估库存,并且用它来预测门店的收入使她的现金流动情况变得更好,更好地了解面包店的现金流量会帮助其更好地控制主要资本支出。如果花小姐想在门店内新增设备或仓库等,则必须要了解接下来几个月的现金流情况。
  简单来讲,现金流就是除去开支每月的剩余资金。如果用公式来解释,就是销售收入-门店成本和其他开支。门店成本主要包括商品成本和税赋成本,商品成本中又包括固定成本和变动成本。这需要我们建立数据模型,其他开支是花小姐扩大规模带来的那些支出。
  花小姐认为主要有两个方面的支出,即面粉和运费。她想开始在7月份囤积一些油,为此需要增加一个筒仓。并且在8月份购买一辆新的面包车以方便在附近社区送货,她需要预测何时可以实施这些项目计划或是否需要再等一段时间。
  在“现金流”工作表中给出了面包店从2007年以来的现金流量情况,并且花小姐将3种主要商品的销售数据按照月份为周期制作了一个数据透视表。当然以月份为周期的销售数据也是基于日销售表的基础上计算出来的,可见原始数据的积累是多么重要。现在她需要预测未来3个月的收入来计算现金流的情况后决定费用的支出,并且为了保证门店的正常运营,每月末店内的净现值必须大于20 000美元。
  操作步骤如下。
  (1)建立Excel数据模型
  确定现金流首先要确定各成本,成本由商品与税费成本组成。每类成本又由固定成本与可变成本组成,两类成本的固定成本均已知。只有变动成本不知,而它均与销售收入有关,因此该数学模型的思路为收入预测→计算成本→每月现金流→决策。
  在Excel中的“现金流”工作表中建立模型。
  现金流的Excel模型说明如下。
  单元格B33:AP36区域为2007年3月开始以月度为时间周期的历史销售收入数据。
  E4:G4单元格区域为预测未来3个月的销售收入数据。
  B8:G16单元格区域为每个月店内的成本。
  成本包括商品成本和间接成本,商品成本主要指原料的采购成本。其中的固定成本指店面租金等,为$6707/月。商品可变成本与销售收入有关,按照经验估计可变成本占销售收入的23%。在E10单元格内输入公式“=$D10*E$4”,即7月份的商品可变成本。其他月份商品的可变成本依次类推;间接成本主要包括设备折旧等费用,为$8924/月。按照经验间接可变成本占销售收入的比例约为18%。税收比例为5%,增值税比例为17%。
  在E13单元格内输入公式“=$D10*E$4”表示7月间接可变成本费用。
  在E14单元格内输入公式“=E$4*$D14”表示7月份的税收费用。
  在E15单元格内输入公式“=E$4*$D15”表示7月份增值税的费用。
  在E16单元格内输入公式“=SUM(E8:E15)”表示7月份店内的总费用。
  其他月份的间接成本计算依此类推。
  7月份计划囤油需要筒仓,需投资$50 000,数据输入至E20单元格;8月份新购面包车及新增仓库施工的一次性投资为$35 000,数据输入至F21单元格。每月的现金流=销售收入?总费用?投资。在E24单元格内输入公式“=E4-E16-SUM(E20:E21)”表示7月份的现金流。假设7月初的净现值为$42 941,则输入至E26单元格。在E27单元格内输入公式“=E26 E24”表示7月末的净现值,其他月份依此类推。
  (2)预测设置
  由于现金流的预测依然按照时间序列分析方法进行,因此在Crystal Ball中设置预测器的方法与上面案例相同。操作步骤与库存控制相同,如图1-120所示。
  此时预测周期为3,即只需要预测未来3个月的销售收入。预测完成后将预测数据放置在表格最后。
  预测完成未来3个月的销售收入。按照Excel的数学模型,如果7月份需要投资$50 000,8月份需要投资$35 000且7月份的月初净现值$42 941计算,则每月月末的净现值。
  从计算结果来看,9月末的净现值$35 452满足最低现金目标$20 000的需求。但8月末的净现值$11 833不能满足最小现金目标,7月末的净现值$19 536也与最小现金目标接近。这些数据均是Excel中单个数据的计算结果,不能代表现金流的风险。门店管理者要知道的是风险的概率、因此需要设置假设变量。
  (3)设置假设变量
  在现金流中的主要不确定因素有商品成本中的可变成本的比率、间接成本中的可变成本的比率及税收的比率;另外,还有一个重要的不确定因素是预测的销售收入。该输入也是一个数据概率,而不仅仅是一个数值,因此我们需要设置以上假设变量。在Crystal Ball预测结束后可以直接将预测结果设置为假设变量,并使用时间序列分析的预测值序列。CB Predictor 默认会得到一个正态分布的假设。
  在预测运行之后单击【Paste】按钮粘贴数据时选择【Paste Forecasts as Crystal Ball assumptions】复选框,预测值自动设置成以单元格数据为均值的正态分布。
  将商品成本中的可变成本、税赋中的可变成本及增值税率设置为假设变量。
  D10单元格设置最小值为13%,最大值为26%,最可能值为20%的三角形分布;D13单元格设置成均值为12%,标准差为1%的正态分布;D14单元格设置成均值为5%,标准差为1%的正态分布;D14单元格设置成均值为22%,标准差为2%的正态分布。

大数据时代小数据分析 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据时代小数据分析