欢迎光临
免费的PDF电子书下载网站

大数据挖掘 PDF下载

编辑推荐

本书除了系统方法的理论讲解之外,在每一章给出了每种方法的R语言实现的实例,提供PPT、源代码、实验手册、课程与实验大纲、按照知识点结构的学习参考视频(可通过微信扫一扫功能观看)等,均可到清华大学出版社官网下载使用。 ;

内容简介

本书详细介绍了大数据挖掘技术,全书分为3篇,共12章。第1篇为大数据分析基础,包括第1~4章,分别为大数据概述、大数据相关技术、数据预处理、R语言工具的使用。第2篇为大数据挖掘技术,包括第5~11章,分别为线性分类方法、分类方法、聚类分析、关联规则、预测方法与离群点诊断、时间序列分析、大数据挖掘可视化。第3篇为大数据挖掘案例,包括第12章,介绍了大数据挖掘应用案例。 本书既可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、数据分析等专业的高等教育教材,也可作为科研人员、从事大数据相关工作的技术人员的参考书。

作者简介

暂无

大数据挖掘 PDF下载

目录

暂无

前沿

为什么要写这本书
大数据时代的到来,使我们的生活在政治、经济、社会、文化等各个领域都发生了很大的变化。如何从大数据中挖掘出隐含的丰富知识与价值,更好地得出结论并作出智能决策已成为相关工作者面临的机遇与挑战。
本书基于教育部“2016年产学合作协同育人项目”——普开数据教学内容和课程体系改革项目,作为项目成果公开出版。
读者对象
本书适合作为高等教育“大数据处理”与“大数据分析”课程的教材,也可作为其他领域有数据分析需求的人员培训教材以及大数据从业人员的参考书。
如何阅读本书
本书首先介绍大数据,包括大数据的业务应用场景、云计算与大数据挖掘以及大数据挖掘过程。介绍了大数据相关技术,包括大数据获取、预处理、存储和处理、查询和分析、可视化技术以及主流大数据分析平台、R语言工具的使用。接着介绍了大数据挖掘常用的分类模型和算法,包括最基础的线性分类方法,分类器性能评价标准以及主要分类方法,内容包括K近邻分类器、贝叶斯分类、神经网络与深度学习、支持向量机等,着重介绍了聚类分析、关联规则、时间序列分析、预测方法与离群点诊断以及大数据挖掘可视化常用技术。最后对各行各业的大数据挖掘应用案例进行了详细介绍。除了系统方法的理论讲解之外,我们在每一章给出了每种方法的R语言实现的实例。每一章的小结处按知识点提供了参考学习视频,可通过微信APP的扫一扫功能扫描观看。
作者分工与感谢
本书由赵志升撰写第1章、第2章、第12章,李静撰写第3~5章,梁俊花撰写第6章、第8章、第10章,赵志升、刘洋合写第7章、第9章、第11章。最终由赵志升、梁俊花统稿校对。感谢河北省人口健康工程技术研究中心医疗大数据研究室的人员参与本书的写作与实例算法实现,他们是靳晓松、王秀苹、吴仪、韩冰月、高雅静、李凯璇、李佳垚、樊亚宁、贾晓莹、傅轩昂、张艺璇、郭明磊、刘恬恬等。在编写的过程中也得到了刘艳霞、宋玉玺老师的帮助。本书参考了国内外学者的大量成果文献,在此一并表示诚挚的谢意。
勘误和支持
由于大数据挖掘是一个正在蓬勃发展的学科领域,涉及的内容宽泛且变化迅速,鉴于作者水平有限,在本书内容的安排、表述、推导等方面各种不当之处在所难免,敬请作者在阅读本书的过程中不吝赐教,以改进此书,读者的意见和建议请发至邮箱zzsbigdata@sina.com。

编者2018年11月

免费在线读


第1篇大数据分析基础

第1章

大数据概述

【内容摘要】本章对大数据的产生及特征、现状及趋势及其面临的技术问题业务应用场景进行了简述,并对云计算与大数据挖掘进行了比较,对大数据挖掘过程进行了概述。
【学习目标】理解大数据、云计算与大数据挖掘的基本概念与特征,掌握大数据挖掘过程与方法,了解大数据现状及趋势以及面临的技术问题。
1.1大数据的业务应用场景
1.1.1大数据的产生及特征
1. 什么是大数据

大数据(Big Data)或称巨量资料,是指需要用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的复杂的数据集合。
大数据是一个宽泛的概念,麦肯锡咨询公司是研究大数据的先驱,在其报告Big data: The nextfrontier for innovation, competition,and productivity中给出的大数据定义: 大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。它同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据。国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。亚马逊公司的大数据科学家John Rauser给出了一个简单的定义: 大数据是任何超过了一台计算机处理能力的数据量。在维克托·迈尔舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据是指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用,即大数据是在多样的或者大量数据中迅速获取信息的能力。在这个定义中,重心是能力。大数据的核心能力,是发现规律和预测未来。
大数据技术是指从各种各样类型的数据中快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘技术、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
2. 大数据的特征
作为《大数据时代》一书的作者,牛津大学网络学院互联网治理与监管专业教授、大数据权威咨询顾问维克托·迈尔舍恩伯格博士认为,大数据有三个主要特点,分别是全体、混杂和相关关系。
首先是全体,即收集和分析更多的数据。这个数据都是有关研究问题的数据,其中数据点绝对的数字并不重要,重要的是有多少数据点和研究的现象相关。如果想要研究的现象只有6000个数据点,抓住6000个数据点就是大数据,因为这就抓住了所有数据。通过这种方式可以看到很多细节,这些细节在之前随机抽样是得不到的。
其次是混杂,即接受混杂。在小数据时代人们总试图收集一些非常干净的数据、高质量的数据,花费很多金钱和精力来确定这些数据是好数据,是高质量的数据。可是在大数据时代,不用去追求那种特别的精确性,当宏观上失去了精确性,微观上却能获得准确性。
最后是相关关系。因为更加混杂,因果关系转向相关关系。人们不要认为可以真正地、容易地找到因果关系,其实那只是发现相关关系。我们应该关注是什么,而不是关注为什么。

大数据

挖掘

00

第1章

大数据概述

00

业界通常用4个V(Volume、Variety、Value及Velocity)来概括大数据的特征。大数据呈现出“4V 1C”的特点。
(1) 数据体量巨大(Volume)。通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
(2) 数据类型繁多(Variety)。大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据,这种类型的多样性让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
(3) 价值密度低(Value)。价值密度的高低与数据总量的大小成反比,大数据量反而价值密度低。以视频为例,一部时长1小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
(4) 处理速度快(Velocity)。涉及感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
(5) 数据复杂(Complexity)。通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求。
1.1.2大数据现状及趋势
数据价值的凸显和数据获取手段、数据处理技术的改进是大数据应用爆发的根源。随着数据生产要素化,数据科学、数据科技的不断发展和数据价值的深度挖掘及应用,一场大数据革命正在进行,它将带动国家战略及区域经济发展,智慧城市建设,企业转型升级,社会管理及个人工作、生活等各个领域的创新和变革。如何真正应用好大数据,发挥大数据的威力,是当前所有人都在共同研究和探索的问题。
大数据在数据科学理论的指导下,改变创新模式和理念,各个国家都积极推进大数据的战略性产业,利用大数据来提高国家的经济决策和社会服务能力,保障国家安全。互联网、物联网每天都在产生大量的数据,据调查,2015年有近200亿个设备连接到互联网上,这些设备不仅是计算机、智能终端设备,更有汽车、工厂设备、数字标牌等。
从产业拓展的角度看,大数据是继云计算、物联网之后的一个新产业领域,其蕴含的机会和挑战将大大多于云计算和物联网。大数据产业(数据产业)具有很强的蜂箱效应,除了产业自身的经济蕴藏量之外,还将大大撬动其他产业的跨越升级。
2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放政府上非常积极,通过Data.gov开放37万个数据集,并开放网站的API和源代码,提供上千个数据应用。除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动,已有41个国家响应。美国联邦政府下属的国防部、能源部、卫生总署等7部委联合推动,于2012年3月底发布了大数据研发专项研究计划(Big Data Initiative),投入2亿美元用于研究开发科学探索、环境和生物医学、教育和国家安全等重大领域和行业所急需的大数据处理技术和工具,把大数据研究上升为国家发展战略。
在我国,2011年以来,中国计算机学会、中国通信学会先后成立了大数据委员会,研究大数据中的科学与工程问题。2015年9月国务院出台了《促进大数据发展行动纲要》,通过开放、产业和安全三位一体建设数据强国。2016年3月我国发布的“十三五”规划纲要又对实施网络强国战略、“互联网 ”行动计划、大数据战略等作了部署。实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。全面推进重点领域大数据高效采集、有效整合,深化政府数据和社会数据关联分析、融合利用,提高宏观调控、市场监管、社会治理和公共服务精准性和有效性。
1. “大数据资源”成为重要战略资源,将成为最有价值的资产
互联网时代,“资源”的含义正在发生极大的变化,它不仅仅是指煤、石油、矿产等一些看得见、摸得着的实体,大数据正在演变成不可或缺的战略资源,数据成为新的战略制高点,成为一种新的资产类别,就像货币或黄金一样。大数据已经被视为一种资产、一种财富、一种可以被衡量和计算的价值。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。
2. ; “大数据决策”成为一种新决策方式
依据大数据进行决策,从数据中获取价值,让数据主导决策,是一种前所未有的决策方式,正在推动着人类信息管理准则的重新定位。随着大数据分析和预测分析对管理决策影响力的逐渐加大,依靠直觉做决定的状况将会被彻底改变。

3. ; “大数据应用”促进信息技术与各行业深度融合
有专家指出,大数据及其分析会在未来10年改变几乎每一个行业的业务功能,在制造业、医疗与健康、交通、能源、材料、商业和服务等行业领域甚至在新闻传媒领域,也都在以大数据为发展契机,加速这些行业与信息技术的深度融合。大数据和传统商业智能融合产生大数据商业智能,从而形成一个全面、完整的数据价值发展平台。大数据服务提供商将会以更加定制化的适用于各行业的商业智能解决方案提供大数据服务,在业务运营智能监控、精细化企业运营、客户生命周期管理、精细化营销、经营分析和战略分析等方面得到更好地应用。
4. “大数据开发”推动新技术和新应用不断涌现
大数据的应用需求是大数据新技术开发的源泉。在不久的将来,很多原来单纯依靠人类自身判断力的领域应用,将被计算机系统的数据分析和数据挖掘功能普遍改变甚至取代。借助这些创新型的大数据应用,数据的能量将会层层被放大。比如,下一代互联网——语义网(Semantic Web),也称数据网(Web of Data),就是要重新构造互联网,打造出下一代互联网。
基于大数据的推荐和预测将逐步流行。在大数据时代,依靠高效能计算的支持,深度学习与大数据智能有望成为大数据智能处理的核心技术。智能机器会依赖于对捕捉到的数据进行分析来做判断和决策,利用群体智慧与众包计算方式将使大数据智能成为可行的技术。
5. ; “大数据安全”上升为国家战略安全
在大数据时代,数据安全的威胁随时都有可能发生。各种国家信息基础设施和重要机构所承载的庞大数据信息,如由信息网络系统所控制的石油和天然气管道、水、电力、交通、银行、金融、商业和军事等,都有可能成为被攻击的目标。同时,用户的隐私会越来越多地融入各种大数据中,而各种数据来源之间的无缝对接以及越来越精准的数据挖掘技术,使得大数据拥有者能够掌控越来越多的用户和越来越丰富的信息。在挖掘这些数据价值的同时,隐私泄露存在巨大风险。由于系统故障、黑客入侵、内部泄密等原因,数据泄露随时可能发生,从而造成难以预估的损失。大数据安全问题也成为国家安全的重要组成部分。
6. 大数据量导致难以应对的存储和计算量
大数据时代,如何有效、快速、可靠地存取这些日益增长的海量数据成了关键的问题。数据量的指数级增长对不断扩容的存储空间提出要求,实时分析海量的数据也对存储计算能力提出了要求。
未来,大数据处理架构的多样化模式(如Hadoop/MapReduce框架、实时流计算、分布式内存计算、图计算框架)将并存融合。如今大数据存储与管理的技术(如分布式文件系统、数据索引与查询技术、查询语言、实时/流式数据存储管理等)虽然不是新问题,但大数据数量大、速度快等特性带来的挑战终会引起大数据存储与管理的质变。随着大数据的实时处理需求日益迫切,内存计算将成为解决实时性大数据处理问题、提高处理性能的主要手段。大数据的应用需求多种多样,而大数据系统架构等相关技术远远没有达到成熟和稳定的程度,创新引领突破的技术架构与应用模式将不断出现。
7. 数据将越来越开放,数据共享联盟化
大数据越关联越有价值,越开放越有价值。大数据专家委员会2012年讨论了数据共享联盟议题。目前,由于数据共享联盟的生态环境尚未建立,数据共享进展缓慢。美国、英国、澳大利亚等许多国家都对政府和公共事业的数据做出了开放。国内的一些城市和部门,比如北京、上海、贵州省等也在逐渐开展数据开放的工作,数据涉及地理位置、交通、经济统计和资格资质、医疗信息等数据。随着数据共享联盟能够逐步壮大,数据会呈现一种共享的趋势,不同领域的数据联盟将出现,成为产业和学术环环相扣的支撑环节以及产业发展的核心环节。
8. 大数据促进智慧城市发展,为智慧城市的引擎
随着大数据的发展,大数据在智慧城市方面将发挥越来越重要的作用。由于人口聚集给城市带来了交通、医疗、建筑等方面的压力,需要城市能够更合理地进行资源布局和调配,而智慧城市正是城市治理转型的最优解决方案。智慧城市相对于之前的数字城市概念,最大的区别在于对感知层获取的信息进行了智慧的处理,其核心是引入了大数据处理技术。大数据是智慧城市的核心智慧引擎。智慧安防、智慧交通、智慧医疗、智慧城管等,都是以大数据为基础的智慧城市应用领域。
9. 大数据催生新的工作岗位和相应专业
大数据的出现也将推出一批新的就业岗位,例如,大数据分析师、数据管理专家、大数据算法工程师等。数据驱动型工作将呈现爆炸式的增长,具有丰富经验的数据分析人才将成为稀缺的资源。由于有强烈的市场需求,高校也将逐步开设大数据相关的专业,以培养相应的专业人才。企业也将和高校紧密合作,协助高校联合培养大数据人才。
10. 数据科学的兴起
各类学科的交叉以及传统学科对数据的广泛依赖产生数据科学学科,出现新型的大数据系统评测基准。同时,类似波色子的发现,数学、生物、物理、化学、材料等领域在一定程度上依赖数据科学才取得了突破性进展。数据科学作为一门科学,还有很多问题没有解决,甚至还有很多问题没有被提出,这使得数据科学真正成为一个支柱学科尚需更多的努力。
11. 大数据分析与可视化成为热点
在大数据务实发展的同时,行业对大数据发展趋势的需求越来越具体,对于大数据查询和分析的实用性和实效性,以及能否获得决策信息将变得非常重要,决定着大数据应用的成败,而基于大内存的计算模式或将成为大数据实时处理的重要手段。对大数据进行分析后,为了方便用户理解,需要有效的可视化技术,
使得大数据分析及其可视化技术将成为热点。数据可视化技术作为大数据时代的显学,包括交互式的展示和超大图的动态化展示尚有许多问题需要解决。
12. 大数据生态环境逐步完善
如今,大数据的良性生态环境正在逐步完善过程中,大数据与云计算、物联网、移动互联网等热点新兴计算相互交融,大数据的发展越来越务实。在核心技术方面,从笼统的基于大数据的智能和革命性方法,变为4个指向性非常明确的技术趋势预测,即有别于Hadoop的多模式架构并存、大数据可视化、推荐和预测、深度学习。在技术生态方面,开源成为主流,大数据安全和隐私问题、数据科学的兴起依然得到高度关注。在产业生态方面,从笼统的“更大的数据”变为着重关注大数据的价值和应用。价值和应用自然会带来战略性产业地位,大数据生态环境逐步完善。
1.1.3大数据时代面临的技术问题
当今,大数据的到来已向人们展现了它为学术、工业和政府带来的巨大机遇。与此同时,大数据也面临需要解决以下重要的技术问题。
1. 非结构化和半结构化数据处理问题
(1) 大数据的特征表示需要研究。大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据。如今非结构化和半结构化数据的个体表现、一般性特征和基本原理尚不清晰,此外,大数据的不确定性表现在高维、多变和强随机性等方面。这些问题的突破是实现大数据知识发现的前提和关键。设定一种半结构化或非结构化数据,比如图像,如何把它转化成多维数据表、面向对象的数据模型或者直接基于图像的数据模型都是需要研究的内容。从长远角度来看,依照大数据的个体复杂性和随机性所带来的挑战将促使大数据数学结构的形成,从而导致大数据统一理论的完备。
(2) 由于大数据所具有的半结构化和非结构化特点,基于大数据的数据挖掘所产生的结构化的粗糙知识(潜在模式)也伴有一些新的特征。这些结构化的粗糙知识可以被主观知识加工处理并转化,生成半结构化和非结构化的智能知识。寻求“智能知识”反映了大数据研究的核心价值。如果把通过数据挖掘提取“粗糙知识”的过程称为“一次挖掘”过程,那么将粗糙知识与被量化后的主观知识,包括具体的经验、常识、本能、情境知识和用户偏好,相结合而产生“智能知识”的过程就叫作二次挖掘,从一次挖掘到二次挖掘类似事物量到质的飞跃。已知的最优化、数据包络分析、期望理论、管理科学中的效用理论可以被应用到研究如何将主观知识融合到数据挖掘产生的粗糙知识的二次挖掘过程中。同时,大数据的复杂形式导致许多对粗糙知识的度量和评估相关的研究问题。
2. 数据相关管理技术架构问题
(1) 传统的数据库部署不能处理TB级别的数据,快速增长的数据量超越了传统数据库的管理能力。对结构化数据、半结构化和非结构化数据的兼容以及如何构建分布式的数据仓库,并可以方便扩展大量的服务器,成为挑战。
(2) 大数据需要实时处理数据,大数据实时处理需要进行分钟级甚至是秒级计算。海量的数据需要很好的网络架构,需要强大的数据中心来支撑,数据中心的运维工作也将成为关键。在保证数据稳定、支持高并发的同时,减少服务器的低负载情况,成为海量数据中心运维的一个重点工作。对编程模型的扩展性与存储模型的兼容性和互操作性都有要求。
3. 数据安全技术问题
在大数据时代,数据资源的开放共享已经成为在数据大战中保持优势的关键。商业数据和个人数据的共享应用,不仅能促进相关产业的发展,也能给我们的生活带来巨大的便利,但也对数据存储的物理安全性、数据的多副本与容灾机制提出了更高的要求。
同时,开放与隐私如何平衡,也是大数据开放过程中面临的最大难题。
4. 大数据处理技术复杂
当前,大数据的处理技术纷繁复杂,虽然HiveSQL有很大市场,但Hive的数据正确性和Bug仍然比较多; Hadoop MapReduce过于复杂灵活,写出高效Job比较困难; Pig、FlumeJava等分布式编程模型技术的门槛较高,推广比较困难。在数据挖掘和图算法领域虽然涌现出了Mahout、Hama、GoldenOrb等大量开源平台,但都不够成熟。基于Hadoop的工作流系统Oozie和数据传输系统Sqoop都需要开发人员单独部署。目前大数据的处理平台以Hadoop为主,都是自建Hadoop集群或使用Amazon Elastic MapReduce服务,而Google的BigQuery由于种种限制推广得并不理想。上述的技术都是各有利弊,大数据处理技术还没有一个完美的解决方案。
5. 数据的碎片化问题
企业内部的数据常常散落在不同部门,而且数据的存储与处理技术也不一样,如何将不同部门的数据打通,并且实现技术和工具共享,如何处理大数据的传输以及与在线和实时分析系统的整合,如何为数据和应用的提供者和使用者提供一个交易平台和生态环境。如何确保系统可运维和管理,做到远程维修,都存在许多技术问题。
1.2云计算与大数据挖掘
1.2.1云计算的定义与特点
1. ; 云计算的定义

对云计算的定义有多种说法。现阶段广为接受的是美国国家标准与技术研究院(NIST)的定义: 云计算(Cloud Computing)是一种按使用量付费的模式,这种模式提供可用的便捷的按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
云计算是一种新兴的商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。云是网络、互联网的一种比喻说法,用来表示互联网和底层基础设施的抽象。云计算拥有每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过计算机、笔记本、手机等方式接入数据中心,按自己的需求进行运算。
2. 云计算的特点
(1) 集成的超大规模计算资源提高了设备计算能力。
云计算把大量计算资源集中到一个公共资源池中,通过多主租用的方式共享计算资源。“云”具有相当的规模,企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
(2) 分布式数据中心保证系统容灾能力。
分布式数据中心可将云端的用户信息备份到地理上相互隔离的数据库主机中,甚至用户自己也无法判断信息的确切备份地点。该特点不仅仅提供了数据恢复的依据,也使得网络病毒和网络黑客的攻击失去目的性而变成徒劳,大大提高了系统的安全性和容灾能力。
(3) 软硬件相互隔离,减少设备依赖性并具有高可靠性。
虚拟化层将云平台上方的应用软件和下方的基础设备隔离开来。用户只能看到虚拟化层中虚拟出来的各类设备。这种架构减少了设备依赖性,也为动态的资源配置提供可能。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
(4) 平台模块化设计体现高可扩展性与通用性。
云计算不针对特定的应用, “云”的规模可以动态伸缩,满足应用和用户规模增长的需要,同一个“云”可以同时支撑不同的应用运行。目前主流的云计算平台均根据SPI架构在各层集成功能各异的软硬件设备和中间件软件,大量中间件软件和设备提供通用接口,允许用户添加本层的扩展设备。部分云与云之间提供对应接口,可在不同云之间进行数据迁移。
(5) 虚拟资源池为用户提供弹性服务。
云计算支持用户在任意位置、使用各种终端获取应用服务。
在云计算环境中,既可以对规律性需求通过事先预测事先分配,也可根据事先设定的规则进行实时调整。弹性的云服务可帮助用户在任意时间得到满足需求的计算资源。在非恒定需求的应用,如对需求波动很大、阶段性需求等,具有非常好的应用效果。
(6) 按需付费降低使用成本。
“云”是一个庞大的资源池,可按需购买。作为云计算的代表,按需提供服务、按需付费是目前各类云计算服务中不可或缺的一部分。对用户而言,云计算不但省去了基础设备的购置运维费用,具有低成本优势,而且能根据企业成长的需要不断扩展订购的服务,不断更换更加适合的服务,实现了按需服务,提高了资金的利用率。
(7) 潜在的危险性。
云计算服务除了提供计算服务外,还必然提供存储服务。云计算服务当前垄断在私人机构企业手中,仅能够提供商业信用。另外,云计算中的数据对于数据所有者以外的其他用户是保密的,但是对提供云计算的商业机构而言却是毫无秘密可言。如果是商业机构和政府机构选择云计算服务,特别是国外机构提供的云计算服务时,这些潜在的危险成为不得不考虑的一个重要问题。

大数据

挖掘

0

第1章

大数据概述

0

1.2.2云计算与大数据
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的信息。
云计算与大数据一直是行业内关注的两大焦点,两者密不可分。
(1) 从理论角度来看,二者属于不同层次。云计算研究的是计算问题,大数据研究的是巨量数据处理问题,而巨量数据处理依然属于计算问题的研究范围。因此,从这个角度来看,大数据是云计算的一个子领域。
云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化之后再进行分配使用,云计算就是硬件资源的虚拟化; 大数据相当于海量数据的“数据库”,大数据就是海量数据的高效处理。云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是实时交互式的查询效率和分析能力。
(2) 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
云计算与大数据之间是相辅相成,相得益彰的关系。大数据挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律则能够使云计算更好地与行业应用结合并发挥更大的作用。云计算将计算资源作为服务支撑大数据的挖掘,而大数据的发展趋势则是对实时交互的海量数据查询、分析提供了各自需要的价值信息。云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据要依靠云计算技术来进行存储和计算。
将云计算和大数据相结合,人们就可以利用高效、低成本的计算资源分析海量数据的相关性,快速找到共性规律。
(3) 从应用角度来看,大数据是云计算的应用案例之一,云计算是大数据的实现工具之一。
在概念上,云计算与大数据有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。
云计算与大数据的目标受众不同,云计算是卖给CIO的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO、卖给业务层的产品,大数据的决策者是业务层。云计算改变数据架构,大数据改变商业企业运作模式,云计算与大数据相互依托、相互促进共同发展。本质上,云计算与大数据的关系是静与动的关系; 云计算强调的是计算,这是动的概念; 而大数据则是云计算的对象,是静的概念。云计算与大数据密不可分,云计算为大数据处理提供了一个很好的平台。

大数据挖掘 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据挖掘