欢迎光临
免费的PDF电子书下载网站

大数据:挖掘数据背后的真相 PDF下载

编辑推荐

透过纷繁的数据,找到*有用的信息,读这一本书就够。

没有学科门槛,不擅长数学、不懂统计学的人也能读得懂。

 ;

内容简介

在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的“专家告知”不加思考地完全相信,那你就等着上当受骗吧!

本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、“安倍经济学”的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离ХХ、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。

作为“大数据分析”的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!

作者简介

【日】松本健太郎

曾参与营销领域AI项目的开发,在多摩大学研究生院从事统计学/数据科学研究工作。自2018年开始从事分析消费者内在心理的工作。同时还为《东洋经济》周刊等多种媒体撰写关于AI及数据科学方面的文章。现在是备受瞩目的数据科学家中的一员。

著有《完全被误解了的人工智能:深度学习的局限性和可能性》(光文社新书)、《在制作图表之前要读的书》(技术评论社)等。

译者简介

田中景  ;

海南师范大学经济与管理学院教授、经济学博士、博士生导师。曾两次公派日本,先后受聘关西学院大学客座研究员和中央大学客座教授。

大数据:挖掘数据背后的真相 PDF下载

目录

第1章 让全是偏见的我拥有解读数据的能力

  • 有人仅相信想相信的内容 
  • 从古代开始人就充满偏见
  • 只有叔叔阿姨在用 Facebook 
  • 人从多少岁开始被称为“叔叔阿姨” 
  • 对“谷歌总撒谎”的深究能力才是解读能力 
  • 为了发现问题,丰田要反复问五回为什么 
  • 为什么会发生数据造假 
  • 为了阅读数据开展提升解读能力的训练吧 

第2章 有多少外国人到访“被世界爱慕的国家——日本”呢

  • 受到全世界爱慕的日本 
  • 到访日本的外国人明细 
  • 法国排在世界第一位、中国大陆排在亚洲圈第一位的理由 
  • 为什么国家要大力发展旅游产业呢 
  • 每一个都、道、府、县都非常关键 

第3章 为什么支持率在网络和大众传媒上有着如此大的差别

  • 网络和报纸,背离的支持率 

收集数据必须遵循规则 

  • 即使不喝光大酱汤也能品尝出其味道 
  • 从总体中抽取样本的规则 
  • 开票率为 0 即可让其当选 
  • 用数据验证非法选举 / 阴谋论 

第4章 从结果来看,“安倍经济学”使景气好转了吗

  • “安倍经济学”真的那么厉害吗 
  • 所谓“景气好”是指什么 
  • 名义 GDP 与实际 GDP 的区别 
  • 为什么没能从实际上感受到经济增长 
  • GDP 是 20 世纪的遗产 
  • 能够相信 GDP 到什么程度 

第5章 东日本大地震之后到什么状况才能够说复兴了

  • 恢复 “3·11”以前的生机 
  • “已经不是战后了”,战败后的复兴是如何实现的 
  • 东日本大地震的灾区——东北的经济增长率 
  • 因震灾导致人口减少的负面连锁反应 
  • 阪神大地震之后的神户可以说已经复兴了吧 

第6章 经济大国日本为什么又被说成贫困大国

  • 位居 OECD 最差国第二的日本是贫困国家吗 
  • 真奇怪,“有手机还贫困” 

受到大的数值影响的平均数和不受影响的中位数 

  • 从收入中求出相对贫困率 
  • 厚生劳动省的指标和总务省的指标哪个正确 
  • 因样本的抽取方法不同,结果会出现变化 
  • 约 6.4 个孩子里有 1 个属于相对贫困 

第7章 明明人手不足,为什么工资不上涨

  • 推行“安倍经济学”以来,实际工资在下降 
  • 如何解释有效求人倍率急速上升呢 
  • 有效求职者数并非正在找工作的人数 
  • 一亿总活跃 = 非劳动力的劳动力化 
  • 失业率过低的国家——日本 
  • 使用了使失业率降低的技巧 

第8章 国外旅游、报纸、烟酒……说年轻人远离××正确吗

  • 50 年前就有人说“年轻人远离 ××” 
  • 用私企薪金实际状态统计调查来看年轻人的工资妥当吗 
  • 纯属子虚乌有的“年轻人远离国外旅游” 
  • 不能嘲笑“远离报纸”的年轻一代 
  • 不仅年轻人,所有男性都在远离烟酒 

第9章 为了防止全球变暖,我们如今能做些什么

  • 给地球环境造成破坏性影响的全球变暖 
  • “全球变冷”和“全球变暖”哪个正确 
  • 即使不用地球所有地点的气温数据也能看出偏差 
  • 利用回归分析验证大阪的变暖 
  • 最高数值相同最低数值上升,平均值就会上升
  • 日本并非变热了,而是变冷了 

第10章 限糖减肥的结果和数据的对比

  • 如果真想瘦下来,要掌握正确的数据 
  • 身体脂肪率只是统计上的推测值 
  • 减肥效果应该通过相对比较来看 
  • 为了避免一喜一忧,建议采用移动平均法 
  • 计算基础代谢,防止掉进饥饿状态的恶性循环 
  • 即使限糖减肥,也必须保证每天摄入 50 克糖 
  • 限糖和 RIZAP 效果的多重回归分析 

第11章 生活水准开始下降了吗?恩格尔系数迅猛上升之谜

  • 是饮食生活的变化还是“安倍经济学”失败的表现 
  • 把每月波动较大的家庭支出按 12 个月平均值来把握 
  • 看似是糊涂账,实则是仔细调整得出的居民消费价格指数 
  • 利用居民消费价格指数制作散点图 
  • 漏掉了家庭生活调查的回答主体 

结束语

前沿

本书是为那些想学习数据科学却不擅长数学,又不知道从哪里学起的人写的超级入门书。

大家好!初次见面,非常感谢各位能够对本书感兴趣!我叫松本健太郎,在东京从事与营销业务相关的数据分析工作,职业定位被称为“数据分析师”。我平时的工作内容是分析消费者隐含的心理,看清他们的真正需求,并将分析结果写成总结报告,所以也被称为“数据科学家”。

本书的主题是“数据读法”。数据读法,并非简单地把“1”读作“1”,而是理解数据所具有的特征,并由此联想到数据背后隐藏的真相,觉察出数据的失真感,有时还要赶到现场对数据所要表达的结论做出解读。说到底,数据科学家的一大半工作都是在“解读数据”。可能有人会把数据科学理解为利用统计学及最近流行的AI(人工智能)所开展的很高难的科学,其实这是人们的误解。

所谓数据科学,并不是“统计学 AI”。科学(science)的词源是“知识”“知道”,但后来发生了一点转变,是指建立在体系基础之上的知识和经验。因此,从广义上来看,数据科学就是指“关于数据的学问”“利用数据了解事物是什么的学问”。因此,如果认为“数据科学=统计学 AI”,那就过于狭义了。虽然很多人学了数据科学,但因不擅长数学而备受挫折。我认为,他们很可能就是过于束缚在这个狭隘意义上了。

例如,需要具备推理能力、思考能力、看透事物的观察能力和洞察能力等逻辑思考,也是“知道”的重要学问之一。这种学问体系就是数据科学,掌握了这个体系的人被称为数据科学家。

通过本书,读者能够模拟体验数据科学家平时都是如何读取数据的。通过对数据的读取,多少能够掌握一些数据的处理方法,提高自己理解和分析数据的能力,能让大家产生“从明天开始再好好学学数据科学”的想法,也就达到了我撰写本书的目的了。

那么,就让我们开始一起学习吧。

松本健太郎

免费在线读

第1章让全是偏见的我拥有解读数据的能力

本书采用的新闻报道共有以下10个主题:访日游客的增加、舆论调查的可靠性、“安倍经济学”的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离××、全球变暖问题、减肥和恩格尔系数的上升。

这10个主题的数据都是政府机构公布的公开数据。所谓公开数据,是指通过官方网站等媒体任何人都可以自由收集、利用或再次传播的数据。本书开头所介绍的《关于信息通信媒体的使用时间和信息行为的调查报告》也是公开数据,就像检索“信息通信”这个词大家都能够看到相同的数据一样。

通过设定目的、收集数据、检查/统计、分析这四个步骤,让我们立即开始提升数据解读能力的训练吧!

  • 有人仅相信想相信的内容

要提升读取数据的能力,必须先学会怀疑数据,说到底就是要学会怀疑人的判断和行动。因为每个人都有“思想的偏见”,多少都带有一点“自己才是正确的”的想法,这种认识越强烈,偏见就越严重;偏见一严重,就更愿意相信自己想相信的内容,眼光仅对准对自己有利的数字,甚至还会对数字做出信口开河的解释。

更可怕的是,处于这种状态的人很难意识到自己的偏见,他们始终认为自己在正视现实并做出了合理且理性的判断。人们把这种症状命名为认知偏见。

认知偏见并非在互联网普及、信息摄入量增加之后才出现的症状,而是在更早的时候就已经出现了,甚至可能是自人类诞生后就一直存在的症状。

  • 从古代开始人就充满偏见

下面举几个具有代表性的例子。

其一是在《高卢战记》中记载的故事。公元前58年至公元前51年在高卢(相当于现在法国、比利时和瑞士一带)发生的古罗马与高卢、日耳曼之间的战争,史称高卢战争。顺便提一下,《高卢战记》是古罗马军队的指挥官尤利乌斯·恺撒撰写的。

据《高卢战记》记载,为了打破战争的胶着状态,副将萨比努斯向敌军派去了奸细,奸细在敌军阵营里散布流言,“罗马军队害怕了”“指挥官恺撒正在苦苦支撑,萨比努斯正派军队前往支援”。敌军正好处于粮草难以为继的境况之中,于是就简单地相信了对他们自己来说非常有利的流言,对萨比努斯的军队发动奇袭,结果被早已做好充分迎战准备的萨比努斯彻底击垮。

捷报传来之后,恺撒在《高卢战记》里写下这样一句话:“人们都从自己的角度相信自己想相信和自己希望发生的事情。”

另外,这里介绍一个关于巴西的日裔移民的悲剧。巴西方面希望缓解劳动力短缺的局面,日本方面希望缓解人口过剩的局面,双方一拍即合,从1908年开始,很多日本人移民到了巴西。到了巴西的日本人虽深受迫害,但也抱着怀念祖国的信念顽强地活了下来,其中也有一些日本人取得了成功。

1945年8月,日本接受《波茨坦公告》,承认战败。但是,巴西移民中有一部分人不接受日本战败的事实,认定日本战胜了以美国为首的盟军部队,并称自己为“战胜帮”,同时把接受战败事实的人蔑称为“战败帮”。这就是如今日本还在使用的“战胜帮”和“战败帮”两个词汇的来源。

双方的对立日益激化,相信自己想相信的事情的“战胜帮”于1946年对“战败帮”发起了恐怖行动,进而爆发了日本人和巴西人之间的大规模暴动。眼看事态不断加重,各国政府在“战败帮”的协助下,把在日本国内发行的报纸及来自“战胜帮”的亲友的信件送到“战胜帮”手中,千方百计让他们接受日本已经战败的事实。这个过程就用了十多年的时间。

顺便提一下,在日本经济高速增长末期的1973年,从巴西回到日本的“战胜帮”中的一个人说了这样一句话:“有着如此气派辉煌的机场和摩天大楼的日本绝对不可能战败了。”

最后介绍的是我们大家仍然记忆犹新的、由东日本大地震引发的福岛核辐射事故。为什么会发生那场核事故?怎样做才能防止那场核事故?政府、国会和百姓各自站在自己的立场上成立了调查取证委员会。其中,政府设立的事故调查委员会(东京电力福岛核电站调查取证委员会)在历经一年零一个月的调查、取证之后,拿出了报告。

该报告在其结尾处写下了担任委员长的畑中先生的感想:“应发生的事情发生了,认为是不可能发生的事情也发生了。”“不想看见的看不见,想看见的看见了。”

“海啸即使发生,照理来说也不会到达这里”“长时间全部停电,照理来说不可能发生”,在这些假设前提下建设并运营的核电站,却遭受了海啸的冲击,并导致全国大范围的停电。

人们都按照自己的思路想:“即使发生了也不至于出现令人讨厌的状况吧。”但如果出于安全考虑采取一些对策,就会被以下这些话说服了:“这难道不是真的要发生吗?你想让当地居民每天都提心吊胆地过日子吗?”可他们并没有。那些被人们认定的无数想法积累起来,只因一点点的偶然事件就引发了那场重大事故。

正是由于如上所述的认知偏见,致使人们生活在难忍的痛苦之中。同样的例子不胜枚举。尽管做出判断并依此行动的当事人很认真,但他们是否相信自己做出了不正确的选择呢?显然没有。所以,要想掌握读取数据的正确方法,最先要做的事情就是怀疑自己的判断和行动。

“我是不会被认知偏见之类的事情牵着走的。”如果你也曾经这样想过,那么,我在这里随意拿出一个数据给大家介绍一下。

  • 只有叔叔阿姨在用Facebook

大家都知道Facebook(脸书)这个社交网络服务工具吧。2011年2月前后我开始使用它,当时我的印象是,其用户基本都是20~35岁的人,但不知从何时开始,感觉都是一些上了岁数的人在用了。

大家都有一两次这样的经历吧:从既没见过也不认识的快60岁的人那里飞来了“早上好!今天还要加油工作≧.≦*”这种带有表情的文字信息。来自上了岁数的人带有奇怪表情的问候,不禁让收信人全身汗毛根根倒立,但因为是用Facebook发来的,所以好不容易忍了下来。

不知从何时开始,人们都说:“只有叔叔阿姨在用Facebook。”这(总搞恶作剧)大概就是年轻人不太愿意使用Facebook的理由之一吧。

那么,Facebook果真都是那些叔叔阿姨在用吗?

实际上,日本总务省每年都要发布《关于信息通信媒体的使用时间和信息行为的调查报告》。这份报告根据信息通信媒体使用环境的变化、使用时间段、使用目的及可信任程度等,针对从10多岁到60多岁的用户共计1,500人开展了问卷调查。

这份报告也记载了人们对社交网络的使用程度。那么,各个年龄段有多少人在使用Facebook呢?2016年的报告结果如下:使用Facebook人数最多的年龄段实际上是20~29岁;30~39岁的略少一点,排在第二位;10~19岁的人用得比较少(见图1-1)。看到这一结果,就知道“只有叔叔阿姨在用Facebook”是一句谎话了。

大数据:挖掘数据背后的真相 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据:挖掘数据背后的真相