欢迎光临
免费的PDF电子书下载网站

品味大数据 PDF下载

编辑推荐

  《品味大数据》与市面上图书不同的是从多维度对大数据的历史、内涵、哲学与技术四个方面对大数据进行了深入的探讨,用百位大牛的观点论辩来帮助读者形成自己的大数据认知体系。

  图书行文幽默、结构完整、图文并茂通俗易懂,让读者寓学于乐。

  率先采用正反辩论的方法对观点形成阐述,让读者可以从辩证的角度去品味大数据。

 ;

品味大数据 PDF下载

 ;

内容简介

当下,大数据是一个热门的话题,很多领域的学者,从不同的角度进行了深入的讨论。本书从大数据的历史、内涵、哲学和技术四个角度,全面解析大数据,让读者对大数据有更深入的了解。

  《品味大数据》共11章,大致分为4块:第1-3章主要漫谈了大数据的有趣的历史,包括数据的启蒙、信息载体的演变和数据管理的发展脉络。第4-6章主要聊聊大数据的内涵,包括大数据与哲学及第四科学范式的关联。第7-9张是大数据的杂谈,包括大数据的用途、可能面临的陷阱以及通过小故事对大数据进行一些烦死,第10-11章主要涉及大数据的技术,包括100余篇大数据论文的漫读及Hadoop的初级实战篇。
  图书结构完整,行文幽默,并以图文并茂、通俗易懂的方式力图让读者心有余地品味大数据。图书援引了数以百计大家牛人的观点,或褒或贬,高手过招,精彩纷呈,是一本不容读者错过的大数据图书。

  《品味大数据》共11章,大致分为4块:第1-3章主要漫谈了大数据的有趣的历史,包括数据的启蒙、信息载体的演变和数据管理的发展脉络。第4-6章主要聊聊大数据的内涵,包括大数据与哲学及第四科学范式的关联。第7-9张是大数据的杂谈,包括大数据的用途、可能面临的陷阱以及通过小故事对大数据进行一些烦死,第10-11章主要涉及大数据的技术,包括100余篇大数据论文的漫读及Hadoop的初级实战篇。

作者简介

张玉宏 留美博士,曾跟随导师Alok Choudhary教授参加了奥巴马总统办公室有关Big Data(大数据)研讨会。

品味大数据 PDF下载

目录


张玉宏 /  在路上,学而时习之 序

 第一章  大数据简史漫谈之一——数字的来源及数据思维的发展
  人类的“数觉”与计数系统 1.1
 1.2  关于二进制的一点讨论
  数字的诞生与广泛应用的匹配法 1.3
  数学的“问世”与“算法”的祖师爷 1.4
  文字的“出炉”与罗马语言的来历 1.5
  古代的数据保存之道与文言文的“无奈”精简 1.6
  古代的“数据中心”——图书馆 1.7
  古代计算工具的诞生及其演变 1.8
 1.9  统计学诞生——数据思维的渐起
  美国式的人口普查——大数据催生新技术 1.10

免费在线读

5.2 大、小数据的“质”不同 

大数据的实质是什么?在第四章中,我们已经讨论过这个议题。虽然当前学术界和实业界对此都还没有一个统一的定义或认知,但从狭义的字面来理解的话,它应该与小数据相对应,大数据是指数据量特别巨大,超出了常规的处理能力,需要引入新的科学工具和技术手段,方能够进行处理的数据集合。

于此对应的,所谓的小数据指的是,数据规模比较小,用传统的工具和方法就足以完成处理的数据集合。下面我们用一段天文学家第谷·布拉赫和约翰尼斯·开普勒的故事来举例说明小数据的应用。

在16 世纪,有位杰出的占星学家、天文学学家,名叫第谷·布拉赫(TychoBrahe,1546—1601)。第谷出生于丹麦的一个贵族家庭。早在1572 年,第谷凭借自己出色的观察能力,发现仙后座中的一颗新星,后来受惜才的普鲁士国王腓特烈二世(Friedrich Ⅱ)b 的邀请,他在汶岛建造天堡观象台,经过20 年的观测,发现了许多新的天文现象。第谷是天文史上的一位奇人。他对于星象所做的观测精度之高,是他同时代的人望尘莫及的,他编纂的星表的数据甚至接近了肉眼分辨率的极限。

1597 年, 有位才华横溢的年轻人约翰尼斯· 开普勒(JohannesKepler,1571—1630)渐露头角,年仅26 岁的他出版了自己对宇宙模型猜想的著作——《神秘的宇宙》(Mysterium Cosmographicum)。在这本书中,开普勒设计了一个非常有趣的、由许多有规则的几何形体构成的宇宙模型。

1599 年,第谷看到这本书,十分欣赏开普勒的智慧和才能,立即诚邀他做自己的助手。开普勒来到第谷身边以后,师徒二人“珠联璧合”,朝夕相处,对天文学领域共同的狂热,让他们结成忘年交。

但是,好景不长,开普勒受多疑的妻子的挑唆,突然和第谷决裂,不辞而别。开普勒的离去,使爱才如命的第谷非常伤心。他意识到这完全是一种误会,立即写信给开普勒解释,并胸怀宽广地请他回来继续合作。开普勒读了第谷的诚挚来信,感到十分愧疚。当两人重修旧时,第谷不记旧怨,不但把才华出众的开普勒推荐给国王腓特烈二世,还把自己20 多年辛勤工作积累下来的观测资料和手稿,全部交给开普勒使用。他对开普勒说:“除了火星所给予你的麻烦之外,其他一切麻烦都没有了。现在我把火星的研究也要交托于你,它够你一个人麻烦的了。”

开普勒在接手第谷观测的数据后,这批花费第谷20 多年时间得到的数据,很快就在开普勒手中“妙笔生花”,开普勒经过手工计算,从中发现了著名的“行星运动三大定律”,即轨道定律、面积定律和周期定律。这三大定律最终使开普勒赢得了“天空立法者”的美名。开普勒的成就,来自坚实的数据支撑。他凭借手工,就能处理完第谷20 多年收集而来的数据。这一案例反映的是他处在一个“小数据时代”。

随后,与开普勒同时代的牛顿,通过论证开普勒行星运动定律与他的引力理论间的一致性,证明了地面物体与天体的运动都遵循着相同的自然定律,从而发现了万有引力和三大运动定律,现在看来,这也是基于小数据的。这些经典理论的提出,奠定了此后三个世纪里物理学领域的科学观点,并成为了现代工程学的基础。再后来,随着科学的发展,数据量有了较大的增加,为了处理那些在当时看来的“大数据”,统计学家发明了抽样方法,其基本要求是,在确保所抽取样品具备“随机性”的基础上,来保证样本可以对全体具有充分的代表性,从而推断全体样品的特性,由此解决了“大”数据处理的难题。

而当前的大数据,不仅是所谓数据海量,而且各种数据的差别非常大,用抽样方法难以保证它的有效性。传统的统计方法,之所以不能适用于现在的大数据,大致源于如下三点原因。

(1)在第四章中,我们讨论了大数据的“4V”特征,其中最能反映大数据和小数据不同之处,就是它的“多样性”(Variety):由多种数据来源组成的一个全面的数据。在多种数据源的应用环境中,抽样很难保证它的“无偏性”(unbiasedness)。

(2)统计学家们设计的统计模型,其结论的准确性,强烈依赖于与结论有关的应用类型。目前大数据的主力军——网络数据呈现长尾分布(长尾理论将在后面的小节介绍),使得传统的标准方差等衡量标准失效,“长相依”和“不平稳”常常超过了经典时间序列的基本假设。

(3)传统的机器学习方法,通过先在较小的数据集样本中学习,然后调整参数,验证分类、判定等“假设”和“模型”的适用性,再推而广之到更大的数据集上。通常来说,一般的NlogN、N2 N2 等级别的算法复杂度,是可以容忍的,然而面对PB 级别(1PB=1 024TB=1 024×1 024GB=1 125 899 906 842 624 Bytes)的大数据处理,这种算法复杂度已经难以忍受,因此需要设计新的数据处理算法来适应这一新情况。江西财经大学科技哲学教授黄欣荣,对小数据和大数据“质”的区别也做了比较到位的描述。

(1)从采集手段上来说,小数据属于人工数据,是有意测量、采集的数据;而大数据大多数是由智能系统自动采集或人们无意留下的数据(比如,用户在搜索引擎中使用的搜索关键字、服务器运行的各种日志等),因为当时没有什么明显的用途,很多大数据一度被称为“垃圾数据”。目前,“数据排放”(data emission)——互联网用户留下的点点滴滴(如点击记录、浏览时间、评价内容等),都可以发掘出价值,目前正成为网络经济主流。在大数据时代,有个口号就是,记录一切数据,等待有趣的事发生。在特定的生态环境下,用适合的工具挖掘,大数据中的所谓“垃圾数据”就不再垃圾。

(2)从存储介质和处理平台来看,小数据因为容量较小,常存储于本地存储介质中,其处理平台仅需单机即可完成,数据的处理者清楚地知道数据“身处何地”,可以“亲力亲为”地编写对应的数据分析程序。而现在的大数据,往往因数量过大,而不得已存放于“云端”中,“云深不知处”,云计算利用自己的“虚拟化”技术,让用户不知道也不需要知道数据存在哪台“云计算”的服务器上。就如同用水、用电一样,用户无须知道自来水厂和发电厂在哪里一样,仅仅打开水龙头、按下开关就能得到水资源和电资源。所谓的云计算,就其本质而言,就是一种以互联网为连接中介,以租赁服务的方式,为用户提供动态可伸缩的虚拟化资源的计算模式。中国宽带资本基金董事长田溯宁先生曾总结说,大数据与云计算就好比一个问题的两面。如果说大数据是有待解决的问题,那么云计算就是问题的解决方法。通过云计算对大数据进行分析、预测,会使决策更加精准,释放出更多的隐藏价值。大数据,这个21 世纪人类探索的新边疆,正在被新的计算模式——云计算所发现和征服。

(3)从数据性质来说,小数据因“有意采集”来支持研究者的假设或观点,因此可归属于“主观数据”。相比较而言,大数据则因没有事先渗透主观意图,数据的生产者反而能“真情流露”,从而更显客观性,因此属于“客观数据”。此外,根据舍恩伯格教授的观点,大数据不再是随机样本,而是全体数据。全数据是由多维度数据构成的。一个事物的全息可见,自然比单维度的采集要来得客观。有些商家(特别是大型电商)就是利用顾客的多维度、多层面“用户画像”来更全面刻画客户特征,从而达到精准营销。舍恩伯格教授在其著作《大数据时代》一书中,开门见山地提出了大数据的哲学意义:“大数据开启了一次重大的时代转型。就像借助望远镜,让我们能够感知浩瀚的宇宙,借助显微镜,我们能够观测渺小的微生物一样,大数据正作为人类认知世界的新手段、新方法、新工具,改变我们的生活、工作以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄意待发……”由此可见,大数据,除了在信息科学领域成为研究热点外,在哲学层面的认知,也应有所突破,这也是人类进一步认识世界的迫切需求。

品味大数据 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:品味大数据