编辑推荐
读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。
 ;
读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。
内容简介
数据分析不在于你掌握了多少先进的软件工具,也不在于你拥有多么高智商的头脑,而是要靠更大视野、更宽角度和更具有逻辑性的思维。本书不是一本介绍大数据概念的流行读物,也不是开讲编程工具高深理论的专业教材,而是立足于大数据之上的思维模式的普及。读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在*通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。作为读者,你可以是大中专院校的数据分析专业学生,也可以是企事业单位的经营分析人员,或者是任何行业任何职业中喜欢“头头是道”的分析爱好者。开卷有益,即便你从来不需要大数据,也可以从本书中领悟到思维魔力,因此让工作与生活更充满智慧与乐趣。
作者简介
马继华,达睿咨询(DATAREAL)创始人,电信与互联网分析师,大数据专家,长期关注通信、互联网、金融和新媒体,百度百家作者,微博签约自媒体,腾讯科技年度*具影响力自媒体,移动互联网影响力人物,知名培训师,坚持每日一文超过十年。
目录
第 1 章 大数据与人脑的较量1
BAT 为何如此了解我们2
大数据预测世界杯真的很准吗10
数据分析的五个基础16
结构化思维与分析的类别26
人脑在大数据时代并没有过时30
相亲是感性的还是理性的37
第 2 章 大数据看起来是无所不能45
从三只麻雀之死看大数据的起源46
大数据会让我们失去做梦的权力吗51
运营商的大数据为何抱着金碗要饭吃56
大数据方法真能解决交通拥堵吗61
德国足球队中的“第十二人” 66
大数据之下,人而无信,不知其可也69
大数据助传统银行涅槃重生77
用大数据方法保护大数据的安全80
大数据让运营商成为旅游业的智囊87
第 3 章 七种必备的大数据思维91
从 1-0≠8-7 开始说起92
统计,一门与赌博密不可分的技术95
串联,一种简单实用的日常分析法99
对比,最常用也最实用的分析方法102
拆分,庖丁解牛之后的透视116
合成,组合起来的魅力125
逻辑与反证,大视野大转换下的推理128
京东净营收双降,危险真的降临了吗134
大数据分析的关键在于有用138
第 4 章 分析方法的全聚合141
汇总与排序,你离不开的142
谁说比例与频次不是分析145
平均数里隐藏的大秘密152
方差,也许你不用关注,但还是要理解更好156
大数据时代的相关关系和因果关系157
回归分析,你必须学会的分析方法165
聚类、判别和因子分析172
楼市命悬“一线”,“刚需”去哪里了180
大数据分析可能用到的软件184
第 5 章 大数据,有时候很奇葩189
看懂经济形势,奇葩大数据靠谱吗190
我国航班正点率属国际中上水平193
为什么互联网专车会造成城市拥堵197
坐飞机最危险的阶段是去机场的路上203
中医治未病,大数据四法助你看透 P2P 投资风险207
你会叫个外卖给丈母娘拜年吗211
第 6 章 善用数据,但别自作聪明215
收集情报和信息的几种方法216
球探与中国足球的屡战屡败221
网络资料的鉴别与识别谣言224
网上的这些分析都是忽悠,你中招过吗228
为什么生儿子的司机车险出险率比生女儿的高234
大数据营销不能自作聪明,别小瞧你的消费者236
第 7 章 换个角度,让结论海阔天空241
如何看不同的趋势图242
人均预期寿命提高,你真能多活一岁? 245
跳楼?数据也会说假话250
一道被改过的阿里巴巴面试题257
楼市危急,农民工如何去救开发商260
模型都是靠不住的,挑战短板理论264
大数据也有做不到的事266
前沿
早就想写一本关于数据分析的书,最主要的原因就是,自己是统计专业毕业,又从事过多年数据分析的工作。工作几经变迁,现在已经很少用软件重操旧业,但却越来越感觉到数据分析的重要性。
经常看网络、电视和报纸上的很多分析,在信誓旦旦的说教与言之凿凿的数字之外,很多却是惨不忍睹的分析过程,甚至说是误人子弟也不为过。因为自媒体的流行,很多人根本没有基本的分析方法和技巧,在违背常理的情况下做出了很多奇异的解释,将大家引导到错误的方向。
最为可笑的,曾经有一次看到某知名报纸上的文章,分析的是中国信息分类领域的两家互联网巨头: 58 同城与赶集网(这两家公司在2015 年宣布合并)。当时, 58 同城刚刚上市,这家报纸的专栏作者发表了一篇针对性的分析文章,文中称,他查阅了 ALEX 网站, 58 同城的流量排名在世界网站的第 300 名,而赶集网排名是第 900 名。于是,这位作者就果断地下结论说,以上数据足以证明 58 同城的网络流量是赶集网的 3 倍。呜呼,如此分析竟然逃过了多少编辑的眼睛,甚至还被众多读者接受,是多么可悲!
在实际工作中,一些人虽然科班毕业,通晓各种分析工具,甚至对各种各样的软件如数家珍,编程造模轻车熟路,但却对具体的分析套路与方法形同陌路,只能机械刻板地对数字结论进行解读。实际上,这样的数据分析还不如不做,错误的分析和错误的解读同样都是害人不浅。
当然,由于分析能力不到位,让自己吃亏上当丢人的案例更是不胜枚举。中国足协就是典型案例。 2013 年,人所共知的原因,中国足球终于迎来了出人头地的机会,中国足协更是喜出望外。为了配合隆重的节日气氛,也是要彰显一下中国足球有雄起的能力,中国足协费尽心思地组织了一场国际足球友谊赛。
中国足协应该在邀请友谊赛的对手方面煞费苦心。邀请德国队?肯定不行,严谨的德国人不明就里的职业精神会破坏比赛气氛。邀请西班牙队?鼎盛时期的西班牙与中国队比赛也必须让自己有一个可以接受的成绩,否则被人笑掉大牙。于是,中国足球邀请了我们的近邻,泰国队,可怕的比赛开始了。估计包括中国足协官员在内的中国球迷都没有想到,一场友谊赛进了 6 个球,更重要的是,我们只进了一个,泰国队进了 5 个。
如果中国足协进行了充分的数据分析,也许就会避免这场悲剧的发生。历史数据证明,中国队此前已经多年没有胜过泰国队。如今的中国队不再是以前的那支“中国头球队”,依靠身高与体重就可以战胜东南亚球队,几年来学西班牙控制脚下球的中国队既没有学到技术,也忘记了本分,对付泰国这样的小老虎已经心有余而力不足。或者,这场比赛还不如邀请韩国,场面也不会失控。
如果我们非要挖苦一下数学水平奇差的中国足协,那也是可以的。因为,某年某月某日的世界杯外围赛亚洲区预选赛,中国与黎巴嫩同组,在最后一轮比净胜球决定出线的关键时刻,中国足协竟然鬼使神差地算错了账。当全场球迷因为中国队 7∶0 战胜中国香港而成功惊险获得出线权而欢呼的时候,足协才明白过来, 8∶0 才出线,我们已经被淘汰出局。这样的数据分析能力怎有能力让中国足球拿下大力神杯?
从历史上看,中国一直不是一个靠数据化进行管理的国家,我们太多的中庸之道和模糊分辨,“好好好”、“是是是”、“差不多”,贯穿着经济和社会管理的始终,这个模式也对中国的国家统计局产生着潜移默化的影响,也直接造成了人们对国家统计机构数字的不信任。
数据分析是每个人生活与工作的基本功,小时候对父母的察言观色也是在分析,长大以后的相亲娶妻也要分析,工作中的汇报决策更需要分析,炒股理财也离不开分析。数据分析无处不在,数据分析无时不在,数据分析伴随我们生命的始终。
我们生活的世界变化是如此之快。电力引入美国 46 年后,才覆盖1/4 国民;电话花了 35 年;电视机 26 年;宽带呢?只用了 6 年。 2007年,数码世界容纳了 2810 亿 GB 的数据,全球平均每人 45GB,数码资料首次超越保存空间总量,目前, 互联网每小时处理的数据量已经超过 1EB。
要给美国国会图书馆填满逾 5700万份手稿、2900万册书籍和期刊、1200 万张照片及其他,需时 2 个世纪,现在全球每日生成的数码资料几乎是这些的 100 倍。人类 5000 年的文字记载总共是 5EB,今后每年将产生的数字内容超过 1000EB。
我们所拥有的数据量在海量暴增,我们认识世界的水平也在不断提高。大数据时代来了,我们的思维是不是也应该有所改变?
免费在线读
从 1-0≠8-7 开始说起
请思考一个问题, 1-0 在什么情况下不等于 8-7?
1-0 ≠ 8-7
史书记载,宋太祖是个非常有心计的皇帝,杯酒释兵权的故事就发生在他身上,但却不仅只有这一次。有一天早晨,文武大臣都一个个地汇报自己的工作,接着退到殿外。走在最后的是后周老宰相范质,他现在仍是宰相。当范质快要走出殿门时,宋太祖突然传话,说:“范老爱卿,请稍稍留步,朕有一事与你相商。”听到传话,范质转过身走回到殿上,重新坐到自己的宰相之座。原来,在中国古代,宰相的地,在中国古代,宰相的地位是很高的,可以和皇帝坐着说话。人们常说宰相是一人之下,万民之上的官儿,就是皇帝对宰相也是很尊重,也得让礼三分。因此在上朝君臣议事的时候,宰相可以坐着跟皇帝说话,而其他官员只能够站着。范质坐下来以后,宋太祖递给他一份大臣汇报的奏折,范爱卿,你看这事如何解决才好?范质接过奏折仔细地看了起来。这时宋太祖从龙椅上站了起来,向后宫走去。宰相范质看完奏折后,心里已经想好解决的方法,可是,左等不见皇帝出来,右等也不见皇帝出来,范质实在等不住了,就起身去找皇帝。这时,宋太祖走了出来,范质连忙要坐下,可是回头一看,椅子没有了。原来,趁范质起身不注意时,身边的侍卫悄悄把椅子拿走了。范质不知道如何是好,只得站着和宋太祖说话。以后再上朝,宰相也和其他大臣一样只能站着和皇帝说话,这一制度后来被各朝所沿用,宰相站了千年。
事实上,在宋太祖之前,历朝历代的宰相都拥有决策权、议政权和行政权,只是在逐渐地变小。从宋太祖之后,内阁就变成了只是皇帝的参谋,决策权在皇帝,行政权在六部。并且,这以后的宰相往往“身份”低下,阁臣通过票拟制度取得相当于前代丞相的权力。而“票拟”即对诸多臣民奏章提出处理意见,以供皇帝参考。
由此,我们可以形象地比喻成 1-0 和 8-7 的变化,前者的变化是质变,而后者仅仅是量变,两个结果看似都是 1,可实际上却有天壤之别。就像有人说的,如果你给领导做 PPT,前后做了 8 个才被接受,这等于是被枪毙了 7 个,当然与仅仅做了 1 个 PPT 就被接受不一样。
我们还可以看一个例子,假设有两位客户经理。在年初的时候,其中 A 负责重点维系一个大客户, B 负责重点维系另外 8 个大客户,等到年底比较绩效的时候,发现 A 维系的大客户没有变化,可 B 维系的 8 个大客户跑掉了 7 个,也剩下了一个。这个时候,如果仅仅看最终的结果,两位客户经理都只剩 1 个客户,结果是一样的,可如果我们看看过程,当然是不一样的,而且是天壤之别。
所以,我们在分析问题的时候,不仅要看最终的结果,也要看其中的过程,即便结果一样,如果过程不一样,也不能得到一样的结论。有些时候,即便结果有差异,但过程却非常类似或一样,那么两者可能差异并不大。
当然,以上这个案例,我们还可以从绝对数与相对数的角度来分析。 A 客户经理保有客户 1 人,保有率达到了 100%,可另外那位 B 客户经理的保有率只有 12.8%,应该属于要被辞退的范围了。在中国通信业的历史上, 2008 年是个具有关键意义的年份,在这一年运营商重组且发放了 3G 牌照,中国电信拿着从中国移动“赠送”过来的 500 亿元人民币购买了中国联通手中的 CDMA 网络及配套运营系统人员,由此形成了在移动通信市场上的三强争霸。在这种情况下,如果站在中国移动的视角上,其竞争对手的客户群体并没有发生数量上的变化,但竞争对手却由以前仅有的中国联通,变成了中国联通与中国电信两家,数未变但却发生了根本性的质变。
蚂蚁金服的分析师也介绍过一个关于客户信用分的案例。有三位消费者,他们都得到了相同的芝麻信用分数,比如差不多 750 分,这是某一个时间点的状态。从这个时间点来说,他们三位状态是一样的,但是把这个时间轴放长,看一下是否有一些变化。结果,可以看到,在两个月以前,第一个消费者获得的分数更高,比如说有 850 分,后来发现他有一些问题,比如说他会在还信用款账的时候有一些延迟,所以他的分数在降低。第二位消费者,可以看到他非常稳定,波动也不厉害,他总是准时付账。第三位得到了一个新工作,有了一个很好的职务,他现在将他之前的债务都还掉,在还信用卡账的时候每个月都还,而且他的趋势是向上的。有了这样一个新的知识以后,我们还会把这三个客户相同的看待和对待吗?所以,分析问题,既要看结果也要看过程。
我们也知道,量的积累达到阀值就会催生质变。“不积跬步,无以至千里,不积小流,无以成江海。”任何事物的运动变化,总是先以微小的、不显著的变化开始,经过逐步积累而达到显著的、根本性质的变化。在哲学上,就把事物这种逐渐的、不显著的变化叫作量变;而把事物显著的、根本性质的变化叫作质变。
话说一栋十余层的旧大楼要拆除。一群工人忙活了半个月,用各种办法破坏大楼根基,下了很大工夫。但大楼虽旧,却无比坚固,兀自纹丝不动。工人们无法,便放弃行动,去跟楼主磨工钱。大楼闲置数月。一日,一农民在楼旁不远处放牛,手闲无事,拿起一块石头朝大楼掷去。只听“砰”的一声小响,大楼上的一块玻璃应声而碎,随即,“隆,隆隆,隆隆隆隆”,一阵轰响,这庞然大物竟然顷刻散架,哗啦啦地塌了下来!那农民做梦也没想到,一块石头竟把一栋偌大楼房给打垮了。做分析,就是要从量变看到未来的质变,或者于量变不显著的时候就看到内在的质变。
大数据思维——从掷骰子到纸牌屋 pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版