欢迎光临
免费的PDF电子书下载网站

大数据·数据管理与数据工程 PDF下载

编辑推荐

本书重点围绕大数据管理和大数据工程两个方面研究了大数据平台的体系架构和数据整合、交换与交易技术,通过对大数据的管理,总结出大数据创新方法论,具有很强的理论指导性和实践意义。本书还介绍了数据科学理论与工具,对于医疗行业、移动社交、工业制造等几个热点行业数据工程的实践都会有所启迪。 ;

内容简介

大数据是云计算、物联网、移动互联网、智慧城市等新技术、新模式发展的必然产物,必将对物联网产业产生深远的影响。大数据应用也将对社会的组织结构、经济运行机制、国家的治理模式、企业的决策架构、商业的业务策略以及个人的生活、工作和思维方式等产生深远的影响。 本书由两大部分组成,*部分介绍大数据管理理论框架和生态系统,包括大数据概述; 大数据战略和商业模式变革; 大数据平台的架构体系; 大数据的数据整合、交换与交易; 大数据管理和治理; *后提出大数据创新方法论。第二部分介绍数据科学和数据工程,包括数据科学理论和工具; 医疗健康大数据解决方案、环保行业大数据解决方案、移动社交行业大数据解决方案、金融大数据解决方案、中国制造大数据解决方案和大数据工程保障体系建设。 大数据是综合性较高的交叉学科,本书全面、系统地阐述了大数据管理和技术、大数据科学和工程,具有很强的理论指导性和实践意义。本书可以供企业管理者、数据科学研究工作者、首席信息官等作为参考资料,也可以作为企业管理、计算机、软件工程等相关专业学生的教材使用。

作者简介

暂无

大数据·数据管理与数据工程 PDF下载

目录

 ;

目录

第一部分大数据管理理论框架与生态系统

 ;

 ;

1章大数据概述

 ;

1.1大数据时代

 ;

1.2什么是大数据

 ;

1.2.1大数据定义

 ;

1.2.2大数据特征

 ;

1.2.3大数据结构类型

 ;

1.2.4数据、信息、知识与智能的关系

 ;

1.3大数据发展史

 ;

1.3.1数据管理发展历程

 ;

1.3.2大数据的演变及回顾

 ;

1.4大数据的度量和价值

 ;

1.4.1大数据的度量

 ;

1.4.2大数据的价值

 ;

1.5大数据生态系统

 ;

1.5.1大数据生态系统全貌

 ;

1.5.2大数据生态系统框架

 ;

1.6大数据应用研究方向

 ;

1.6.1大数据管理与技术

 ;

1.6.2大数据科学与工程

 ;

1.7大数据的挑战

 ;

1.7.1大数据管理方面带来的挑战

 ;

1.7.2大数据技术方面带来的挑战

 ;

1.7.3大数据工程方面带来的挑战

 ;

2章大数据战略与商业模式变革

 ;

2.1大数据战略

 ;

2.1.1国外大数据战略视角

 ;

2.1.2国内大数据战略视角

 ;

2.2大数据商业模式和商业机会

 ;

2.2.1基于大数据的商业模式创新

 ;

2.2.2大数据对企业管理决策的影响

 ;

2.2.3基于大数据驱动的商业机会

 ;

2.3大数据市场的行业应用需求

 ;

2.3.1移动互联网和社交网络

 ;

2.3.2政府公共管理

 ;

2.3.3教育科研行业

 ;

2.3.4金融行业

 ;

2.3.5医疗健康业

 ;

2.3.6中国制造2025

 ;

2.3.7智能交通领域

 ;

3章大数据平台的架构体系

 ;

3.1大数据基础设施

 ;

3.1.1虚拟化

 ;

3.1.2云计算

 ;

3.1.3数据中心

 ;

3.2数据采集

 ;

3.2.1系统日志采集方法

 ;

3.2.2网络数据采集方法: 对非结构化数据的采集

 

3.2.3其他数据采集方法

 

3.3数据存储

 

3.3.1结构化数据存储

 

3.3.2非结构化数据存储

 

3.4数据处理

 

3.4.1离线批处理

 

3.4.2实时交互计算

 

3.4.3流计算

 

3.5数据交互展示

 

3.5.1数据可视化基础

 

3.5.2数据可视化模式

 

3.5.3数据可视化工具

 

3.6大数据应用

 

3.7运营管理

 

3.8安全管理

 

4章大数据的数据整合、交换与交易

 

4.1大数据平台整合

 

4.1.1HDFS分布式文件系统

 

4.1.2MapReduce分布式计算框架

 

4.1.3HBase分布式数据库

 

4.1.4交互式数据查询分析

 

4.1.5数据收集、转换工具

 

4.1.6其他大数据平台

 

4.2大数据与存储架构的整合

 

4.2.1传统存储架构

 

4.2.2集群存储的发展

 

4.2.3基于HDFS的集群存储

 

4.2.4固态硬盘对内存计算的支持

 

4.3大数据与网络架构的发展

 

4.4大数据与虚拟化技术的整合

 

4.5Hadoop环境下的数据整合

 

4.5.1Hadoop计算环境下的数据整合问题

 

4.5.2数据库整合工具Sqoop

 

4.5.3Hadoop平台内部数据整合工具HCatalog

 

4.6大数据数据交换

 

4.6.1数据集成技术

 

4.6.2数据交换体系应用框架

 

4.6.3数据交换关键技术

 

4.7大数据交易

 

4.7.1大数据交易产业链

 

4.7.2大数据交易业务模式分析

 

4.7.3大数据交易发展趋势

 

5章大数据管理和治理

 

5.1建立数据驱动的管理体系和架构

 

5.1.1建立数据管理组织和团队

 

5.1.2建立数据管理规章和制度

 

5.2大数据治理体系

 

5.2.1数据标准管理

 

5.2.2数据质量管理

 

5.2.3元数据管理

 

5.2.4主数据管理

 

5.2.5数据资产的全生命周期管理

 

5.3大数据技术管理体系

 

5.3.1数据类型和结构

 

5.3.2数据存储管理

 

5.3.3数据仓库和商业智能

 

5.3.4数据计算和处理

 

5.3.5数据展示与交互

 

5.4大数据事务管理

 

5.4.1事务的基本属性

 

5.4.2大数据事务管理机制

 

5.5大数据流程管理

 

5.6大数据易用性管理

 

5.7数据的安全管理

 

6章大数据创新方法论

 

6.1大数据的爆发

 

6.2大数据创新理论

 

6.2.1大数据的宏观性和微观性

 

6.2.2大数据的生产要素性

 

6.2.3大数据的基因特性

 

6.2.4大数据的催化剂特性

 

6.2.5大数据的活性和流动性

 

6.2.6大数据的黑洞效应和核聚变效应

 

6.3大数据创新方法论

 

6.4信息演变趋势

 

6.5大数据创新实践闭环

 

6.6中国创新创业大数据版图

 

6.6.1大数据时代的数据管理

 

6.6.2大众创业万众创新的浪潮

 

6.6.3中国创新创业大数据版图的推出

 

6.6.4双创版图中的大数据管理挑战

 

6.6.5双创版图中大数据技术的集中运用

 

6.6.6双创大数据版图的意义

 

第二部分数据科学和数据工程

 

 

7章数据科学理论与工具

 

7.1数据科学理论基础

 

7.1.1数据科学概念

 

7.1.2数据科学预测预警分析

 

7.1.3商业智能与数据科学

 

7.2数据科学研究的重要角色

 

7.2.1数据科学家

 

7.2.2数据科学与工程相关角色

 

7.3大数据生命周期管理方法论

 

7.3.1数据分析模型概述

 

7.3.2数据分析模型流程框架

 

7.3.3数据分析模型创新案例

 

7.3.4数据分析工具

 

7.4数据仓库理论

 

7.4.1数据仓库的主要特征

 

7.4.2数据仓库建模

 

7.4.3数据仓库设计

 

7.4.4数据仓库建设方法论

 

7.4.5数据仓库相关技术

 

7.4.6DWOLAPDM的关系

 

7.5数据挖掘高级理论

 

7.5.1聚类分析

 

7.5.2关联分析

 

7.5.3回归和分类分析

 

7.5.4时序模型

 

7.5.5结构优化

 

7.5.6深度机器学习

 

7.6大数据语义分析知识发现

 

7.6.1大数据知识发现过程

 

7.6.2大数据知识发现技术框架

 

7.6.3大数据知识发现专家系统

 

7.6.4企业大数据知识管理框架

 

7.7大数据分析处理平台

 

7.7.1结构化大数据处理架构

 

7.7.2非结构化大数据处理架构

 

7.7.3主流大数据分析平台

 

8章医疗健康大数据解决方案

 

8.1医疗信息化

 

8.1.1美国医疗信息化发展情况

 

8.1.2我国医疗信息化发展趋势

 

8.1.3医疗健康大数据挑战和机遇

 

8.2医疗健康大数据综述

 

8.2.1医疗健康大数据类型

 

8.2.2临床服务数据

 

8.2.3公共卫生调查和监测数据

 

8.2.4医学研究性数据

 

8.2.5个人健康数据

 

8.3医疗健康大数据总体架构

 

8.3.1建设原则

 

8.3.2建设目标

 

8.3.3医疗健康大数据业务架构

 

8.3.4医疗健康大数据技术架构

 

8.3.5医疗健康大数据网络架构

 

8.4医疗健康数据中心解决方案

 

8.4.1医疗数据中心架构设计方案

 

8.4.2集中存储解决方案

 

8.4.3PACS数据存储方案

 

8.4.4容灾备份解决方案

 

8.5医疗健康大数据分析

 

8.5.1医疗实体对象建模分析

 

8.5.2医疗个人健康档案建模分析

 

8.5.3相关数据特征对比分析

 

8.5.4临床信息学大数据分析

 

8.5.5医学文献研究知识发现

 

8.6医疗健康大数据展望

 

9章环保行业大数据解决方案

 

9.1环保物联网

 

9.1.1物联网概念

 

9.1.2物联网基本架构

 

9.1.3环保物联网数据

 

9.2环保电力脱硫

 

9.2.1火电脱硫的重要性

 

9.2.2火电脱硫系统工作原理

 

9.2.3火电脱硫相关数据

 

9.2.4脱硫性能优化目标

 

9.3火电行业脱硫大数据分析

 

9.3.1主要理论和方法

 

9.3.2最优化脱硫可调参数

 

9.3.3最小化脱硫系统成本

 

9.4空气质量大数据分析评价体系

 

9.4.1基于熵权的模糊综合评价方法的原理

 

9.4.2综合评价指标选择与数据来源

 

9.4.3环境质量综合评价结果及分析

 

10章移动社交大数据解决方案

 

10.1移动社交网络发展情况

 

10.1.1移动社交网络发展现状

 

10.1.2移动社交网络发展方向

 

10.2社交网络基础理论和商业模式

 

10.2.1社交网络相关理论

 

10.2.2社交化商业模式

 

10.3移动社交网络数据处理架构

 

10.3.1移动社交网络服务架构模型

 

10.3.2Facebook应用案例

 

10.4移动社交网络大数据分析

 

10.4.1社交网络平台行为影响分析模型

 

10.4.2社交网络单平台内影响力分析

 

10.4.3社交网络多平台影响力分析

 

11章金融大数据解决方案

 

11.1金融信息化

 

11.1.1全球金融信息化发展历程

 

11.1.2我国金融信息化发展趋势

 

11.2金融大数据综述

 

11.2.1金融大数据的特征

 

11.2.2金融大数据的机遇和挑战

 

11.3金融大数据平台总体架构

 

11.3.1建设原则和目标

 

11.3.2金融大数据业务架构

 

11.3.3金融大数据技术架构

 

11.3.4金融大数据网络架构

 

11.4金融大数据分析

 

11.4.1银行风险管理状况分析

 

11.4.2金融大数据风险管理云平台

 

11.4.3大数据征信

 

11.4.4大数据反欺诈

 

11.4.5大数据精准营销

 

11.5金融大数据带来的产业变革

 

12章中国制造大数据解决方案

 

12.1全球工业信息化发展历程和现状

 

12.1.1美国工业信息化发展历程和现状

 

12.1.2日本工业信息化发展历程和现状

 

12.1.3德国工业信息化发展历程和现状

 

12.1.4我国工业信息化发展历程和现状

 

12.1.5我国《中国制造2025》的发展战略

 

12.2工业信息化技术集成和协同发展方向

 

12.2.1集成和协同的空间跨度

 

12.2.2集成和协同的时间跨度

 

12.2.3集成和协同的重点和对象

 

12.2.4主要的集成和协同技术

 

12.3中国制造信息化应用系统

 

12.3.1工业设计自动化系统

 

12.3.2制造控制自动化系统

 

12.3.3制造执行系统

 

12.3.4柔性制造系统

 

12.3.5工业互联网与CPS系统

 

12.3.6ERP信息系统

 

12.4工业大数据架构体系

 

12.4.1互联网催生工业大数据

 

12.4.2工业大数据内涵特征

 

12.4.3工业大数据业务架构

 

12.4.4工业大数据技术架构

 

12.4.5工业大数据安全架构

 

12.5智能化协同制造体系架构

 

12.5.1智能化协同制造发展需求

 

12.5.2智能化协同制造总体架构

 

12.5.3智能化协同制造设计思想

 

12.5.4智能化协同制造应用场景

 

12.6智能化协同制造服务生命周期过程

 

12.6.1制造资源服务集成与发现

 

12.6.2制造服务资源访问策略

 

12.6.3制造服务资源的优化与智能调度

 

12.6.4智能化协同制造研究与自学习机制

 

12.7工业大数据展望

 

13章大数据工程保障体系建设

 

13.1法律体系建设

 

13.2标准体系建设

 

13.3建立标准化大数据治理体系

 

13.4加强大数据行业应用研究

 

13.5加强元数据的研究和应用

 

13.6加强大数据核心技术研究

 

13.7促进大数据交易市场的规范化发展

 

13.8推动大数据标准化进程

 

参考文献

 

媒体评论

评论

前沿


前言
大数据是云计算、物联网、移动互联网、智慧城市等新技术、新模式发展的必然产物,也必将对网络通信(ICT)和物联网(IOT)产业产生深远的影响。大数据技术的发展与应用,将对社会的组织结构、经济运行机制、社会生活方式、国家的治理模式、企业的决策架构、商业的业务策略以及个人的生活、工作和思维方式等产生深远的影响。随着社会网络安全、应急管理、医疗健康、经济金融、交通运输、制造领域、社交社区等各个领域大量数据的使用,对于我们而言,能够及时、有效地了解数据和信息的意义,进而改善决策制定的过程将变得尤为重要。大数据的价值必将对现代企业的管理运作理念、市场营销决策以及消费者行为模式等产生巨大影响,使得企业商务管理决策越来越依赖于数据分析而非经验甚至直觉。因而,大数据也必将对这种传统的商业模式进行近乎彻底的颠覆与模式的重构。当前,美国、日本、法国、韩国、澳大利亚等国家相继启动了推动大数据产业发展的政策改革,并把大数据产业发展纳入国家发展战略,通过有力的资金和政策支持加强大数据研究,优化其发展环境,抢占大数据产业发展的制高点,使其成为推动国民经济社会发展的新手段。鉴于发达国家对大数据产业的强力推动,大数据在经济、国家安全、社会、科研等方面的巨大价值和适应经济社会发展的要求,中国各级政府和社会各界也纷纷制定相关政策推动大数据产业深入发展,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势,我国相继制定实施大数据战略性文件,大力推动大数据发展和应用。目前,我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发取得突破,涌现出一批互联网创新企业和创新应用,一些地方政府已启动大数据相关工作。坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。我们认为大数据的发展必将经历三个重要的阶段。①“技术驱动型”。大数据的核心关键技术正在加速发展和快速迭代,技术体系框架也已日趋成熟,基本能够满足产业发展需求,比如Hadoop生态框架系统。大数据架构体系分为基础设施、采集、存储、处理、分析、应用、安全和维护几个方面。②“行业驱动型”。各大解决方案服务商围绕电信、环保、金融、交通、医疗、政府、教育、工业、城市管理、社交网络等重点行业领域描绘美好蓝图,力求推动行业应用,如节能环保产业布局了高效储能、节能监测和能源计量; 生物医药产业布局了生物资源样本库、基因测序,以及基于物联网的远程健康管理服务等。这一阶段发展虽然还有距离,但这一转变过程正在加速进行。③“模式驱动型”。大数据行业应用深化发展,使得领域和行业边界愈加模糊,商业模式应用创新超越技术本身,企业以独特数据资源进行的整合朝着纵向产业链上下游整合和横向多种产业整合两个方向发展,生产模式向服务化转变,数据作为一种资产资源为企业带来新的商业价值,数据开放为政府治理和个人福祉都带来新的机遇。从大数据系统论的角度,可以将大数据划分为大数据技术、大数据管理、大数据科学和大数据工程,本书重点围绕大数据管理和大数据工程两部分展开阐述。第一部分介绍大数据管理理论框架和生态系统,共分为6章,主要内容有:  数据时代背景、大数据定义、特征、数据结构、度量价值、数据管理与技术和大数据科学与工程研究方向以及大数据生态系统; 国内外大数据战略和大数据应用的商业模式变革; 大数据平台架构体系自下而上包括基础设施、数据采集、数据存储、数据处理、数据可视化、大数据应用、运维和数据安全; 大数据平台整合、大数据与存储、大数据与网络、大数据与虚拟化技术整合、大数据环境的数据整合、大数据交换和数据交易; 大数据流程管理、大数据事务管理、大数据技术管理以及大数据质量管理阐述; 最后提出大数据创新理论指标体系、大数据创新重要环节和大数据创新最佳实践。该部分章节框架清晰、结构分明、逻辑严谨、层次有序、概念明确、重点突出、体系完整,形成整个大数据技术管理体系。第二部分介绍数据科学和数据工程内容,共分为7章,主要内容有:  数据科学概念、研究重要角色、生命周期管理、数据仓库、数据挖掘分析方法、知识发现及大数据处理平台,通过建立科学系统的数据分析方法论,指导数据工程实践; 在数据工程方面,重点介绍医疗行业大数据、环保行业大数据、移动社交大数据、金融行业大数据和工业制造大数据等几个热点行业数据工程实践,每个行业又侧重大数据应用的不同角度,总体上全面解析大数据应用的多个方面; 医疗健康主要包括总体架构(业务架构、技术架构和网络架构)、医疗大数据存储处理、容灾备份解决方案和医疗大数据分析等; 环保行业包括环保物联网架构、电力脱硫工作原理、电力脱硫数据分析优化目标以及空气质量大数据分析评价体系; 移动社交包括发展趋势、社交理论、社交网络商业模式、社交网络平台以及社交网络数据分析; 金融行业包括金融大数据特征、发展机会、总体架构(业务架构、技术架构和网络架构)、金融大数据风险管理平台、大数据征信、大数据反欺诈、大数据精准营销以及大数据带来的产业变革; 工业大数据通过回顾全球工业信息化发展历程和现状,提出了中国制造2025发展战略,同时指出工业信息技术集成和协同发展方向,利用工业信息化应用系统搭建工业大数据架构体系(业务架构、技术架构和安全架构)、智能化协同制造架构原理,最终实现智能化协同制造服务。工业是国民经济的基础,工业的未来也是我国经济发展的未来。最后提出大数据工程保障体系建设,包括法律体系建设、标准体系建设、标准化大数据治理体系建设、技术和应用研究、创新平台建设等,该部分章节充分体现了理论性、科学性、创新性、实用性、经济性、社会性、标准性、保障性和完整性,形成了数据科学和数据工程体系。本书是作者和在大数据研究领域非常有名望的赵勇博士共同编写而成的。书中的第3~6章来源于赵勇博士研究成果,其他是作者多年来对物联网、云计算和大数据的研究、咨询和应用实践经验的智慧结晶,同时也是在清华大学继续教育学院致力于智慧城市规划设计和企业管理咨询工作经验的积累。希望本书将我们多年从事于大数据研究方面的成果展现给读者,本书可以作为企业管理者、数据科学研究工作者、首席信息官等的参考资料,也可以作为企业管理、计算机、软件工程等相关专业学生教材使用。本书在撰写的过程中,得到了清华大学、北京大学多位老师,清华大学数据研究院和行业同仁的资料提供和支持帮助,在此表示衷心的感谢!也感谢我的家人给予我莫大的支持和鼓励,使我顺利完成写作。大数据发展日新月异,相关技术快速发展,由于我们对大数据的理解和知识水平都有局限,书中疏漏或不足之处在所难免,敬请读者批评指正。赵眸光2016年12月于清华园

免费在线读

第3章大数据平台的架构体系
一个完整的大数据平台,其架构体系一般由如图31所示的几部分组成。

图31大数据平台架构体系

其中,大数据基础设施是大数据存储、计算、展示等的基础支撑设施; 数据采集是把数据从数据源采集导入到数据平台中的相关接口及技术; 数据存储则是将数据采用分布式文件、分布式数据库的方式存储在大规模的节点中; 数据处理是对所存储的数据进行查询、统计、分析、预测、挖掘、商业智能处理、深度学习等相关处理; 数据交互展示则是将分析处理完的数据以最佳的交互方式呈现给数据使用者和消费者; 大数据应用是把数据及处理结果应用到各行各业中去,比如医疗、环保、社交、金融、中国制造等行业; 安全管理是对数据的全方位安全管控; 运营管理则是保障整个数据处理架构的稳定高效运营。下面的章节中将逐一详细介绍相关的组成部分。3.1大数据基础设施大数据基础设施为大数据平台的底层提供必要的基础设施支持,比如基础的计算、存储、网络设备,云数据中心,云计算平台等。基础设施与大数据处理的关系,就像我们的身体为大脑思考提供能量一样。强健的体魄可以为大脑提供充足的能量支持,而完善的基础设施可以支持强大的数据处理。大数据处理需要拥有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑。云计算管理平台能为大型数据中心及政府、企业提供灵活高效的部署、运行和管理环境,通过虚拟化技术支持异构的底层硬件及操作系统,为应用提供安全、高性能、高可扩展、高可靠和高伸缩性的云资源管理解决方案,降低应用系统开发、部署、运行和维护的成本,提高资源使用效率。3.1.1虚拟化虚拟化是在1960年为了描述虚拟机(实验性的IBM M44/44X系统)这个概念时被第一次提出的。虚拟化的概念也比较好理解,在电影《黑客帝国》中,男主角尼奥(Neo)生活在由一台超级计算机母体(Matrix)所创造出来的模拟世界中,在里面上班工作,后来逐步醒悟到他只是活在机器所设定的一个虚拟世界里,最终率领人类摆脱机器的控制。这里面的虚拟世界就是对现实世界的一种模拟,在里面所有的体验都跟在真实世界中的一样。按虚拟化技术的应用特点,虚拟化技术主要分为以下几类: 服务器虚拟化、存储虚拟化、网络虚拟化及桌面虚拟化。将虚拟化技术应用于数据中心领域,能够解决阻碍数据中心发展的诸多问题,提高物理设备的利用率,有效降低数据中心运维成本,降低能耗以及保证数据中心服务的可靠性、连续性。对虚拟机的构建和管理被称为平台虚拟化,现在也称为服务器虚拟化。平台虚拟化,跟上面的虚拟世界类似,就是在一个给定硬件平台的服务器(宿主机)上创造一个模拟的计算机环境(虚拟机),并提供给客户机。许多宿主机允许运行真实的操作系统,客户机就好像直接运行在宿主机的计算机硬件上,而实际上它是运行在虚拟机上。一般虚拟机对硬件资源(如网络、显示器、键盘、硬盘)的访问被统一管理在一个比处理器和系统内存更有限制性的层次上。客户软件经常被限制访问计算机周边设备,或者被限制在较低的设备性能上,这取决于宿主机硬件访问策略设定。采用虚拟化技术有几个方面的原因。一方面根据摩尔定律和CPU生产技术的迅猛发展,当今的计算机性能越来越强大,配置越来越高。比如市场上常见的一款智能手机往往都是4核甚至8核的CPU,其计算和存储能力远超一台最早期的超级计算机。但这样强大的硬件和处理能力仍然被一个统一的操作系统管理,造成资源和效率的浪费。为了发挥所有的CPU和硬件资源的效率,可以把每一个运行在独立的服务器上的操作系统转移到虚拟机中。大型的服务器可以“寄宿”许多这样的“客户”虚拟机。这就是物理到虚拟(PhysicaltoVirtual,P2V)的转换。另一方面虚拟机相比于物理机器,具备很多的优势和灵活性。比如虚拟机可以被更容易地从外部被控制和检查,并且可以更灵活地配置(CPU核数、内存、硬盘、网络等)和升级维护。另外,创建一个新的虚拟机不需要预先购买硬件。同时,一个新的虚拟机可以容易地从一台计算机转移到另一台上。一个销售员可以很方便地把一个包含试用版软件的虚拟机复制到他的笔记本中,再去拜访他的客户时不用更换计算机。类似地,虚拟机中的故障不会对宿主机产生损害,所以不会令笔记本上的操作系统死机。虚拟机由于可以很容易地迁移,所以也常被用于远距离灾难恢复方案。3.1.2云计算云计算是继20世纪90年代大型计算机到客户端服务器的大转变之后的又一种巨变。由于政府和企业用户对于大型计算资源的需求在不断上升,而他们自己独立购买、建设和运营大规模的服务集群的成本又非常高昂,因而诞生了大型的第三方云数据中心服务商,为用户提供云计算服务。云计算基于的经济模式是规模经济效应,也就是说很多的中小用户在云资源平台上共享资源,这样云服务商可以综合盈利。这种商业模式类似于现今的电网和自来水管网。在电网系统中,有大型的发电厂,通过输变电路把电接入企业和千家万户,我们只需按用电量来支付电费。在自来水供应中类似地有大型自来水厂,通过输送管网,传送到用户家中,我们打开水龙头就能用水,按照用水量支付水费。云计算的模式也类似,用户接入网络,就能使用大型云数据中心里的存储和计算资源,而不再需要了解“云”中基础设施的细节,不必具有相应的专业云计算知识,也无须直接进行控制。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态、易扩展而且经常是虚拟化的服务。 随着信息和通信技术的快速发展,如图32所示,计算模式经历了从最初把任务集中交付给大型处理机模式,到后来发展为基于网络的分布式任务处理模式,再到最新的按需处理的云计算模式。最初的单个处理机模式处理能力有限,并且请求需要等待,效率低下。后来,随着网络技术的不断发展,按照高负载配置的服务器集群,在遇到低负载的时候,会有资源的浪费和闲置,导致用户的运行维护成本提高。而云计算把网络上的服务资源虚拟化,整个服务资源的调度、管理、维护等工作由专门的人员负责,用户不必关心“云”内部的实现,因此云计算实质上是给用户提供像传统的电力、水、煤气一样的按需计算服务,它是一种新的有效的计算使用范式。并且,云计算是分布式计算、效用计算、虚拟化技术、Web服务、网格计算等技术的融合和发展,其目标是用户通过网络能够在任何时间、任何地点最大限度地使用虚拟资源池,处理大规模计算问题。目前,在学术界和工业界的共同推动之下,云计算及其应用呈现迅速增长的趋势,各大云计算厂商如Amazon、IBM、Google、Microsoft、Sun等公司都推出自己研发的云计算服务平台。而学术界也源于云计算的现实背景纷纷对模型、应用、成本、仿真、性能优化、测试等诸多问题进行了深入研究,提出了各自的理论方法和技术成果,极大地推动了云计算继续向前发展。

图32云计算模式的演化

1. 云计算定义云计算概念最早是由Google提出的,一方面是因为当时在网络拓扑图中用云来代表远程的大型网络,另一方面用来指代通过网络应用模式来获取服务。狭义云计算是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源; 广义云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务,它具有超大规模、虚拟化、可靠安全等独特功效。目前,不同文献和资料对云计算的定义有不同的表述,主要有以下几种代表性的定义。定义1云计算是一种能够在短时间内迅速按需提供资源的服务,可以避免资源过度和过低使用。定义2云计算是一种并行的、分布式的系统,由虚拟化的计算资源构成,能够根据服务提供者和用户事先商定好的服务等级协议动态地提供服务。定义3云计算是一种可以调用的虚拟化的资源池,这些资源池可以根据负载动态重新配置,以达到最优化使用的目的。用户和服务提供商事先约定服务等级协议,用户以用时付费模式使用服务。定义4云计算是一种大规模分布式的计算模式,由规模经济所驱动,能够把抽象化的、虚拟化的、动态可扩展的计算、存储、平台及服务以资源池的方式管理,并通过互联网按需提供给用户。定义1强调了按需使用方式,定义2中突出了用户和服务提供商双方事先商定的服务等级协议。这两个定义都从一定的角度给出定义。定义3和定义4综合了前面两种定义的描述,更好地揭示了云计算的特点和本质。2. 云计算主要特征云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需要投入很少的管理工作,或与服务供应商进行很少的交互。云计算有以下5个主要特征。(1) 按需自助服务。消费者可以单方面按需部署处理能力,如服务器时间和网络存储,而不需要与每个服务供应商进行人工交互。  (2) 通过网络访问。可以通过互联网获取各种能力,并可以通过标准方式访问,以通过众多瘦客户端或富客户端推广使用(例如移动电话、笔记本、PDA等)。   (3) 与地点无关的资源池。供应商的计算资源被集中,以便以多用户租用模式服务所有客户,同时不同的物理和虚拟资源可根据客户需求动态分配和重新分配。客户一般无法控制或知道资源的确切位置。这些资源包括存储、处理器、内存、网络带宽和虚拟机器。 (4) 快速伸缩性。可以迅速、弹性地提供资源,能快速扩展,也可快速释放以实现快速缩小。对客户来说,可以租用的资源看起来似乎是无限的,并且可在任何时间购买任何数量的资源。(5) 按使用付费。能力的收费是基于计量的一次一付,或基于广告的收费模式,以促进资源的优化利用。比如计量存储,带宽和计算资源的消耗,按月根据用户实际使用收费。在一个组织内的云可以在部门之间计算费用,但不一定使用真实货币。云计算新的范式的特点带来了众多的优势,同时引入了一些新的问题亟待解决。这些因素制约着云计算技术及其应用的发展,见表31。

大数据·数据管理与数据工程 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据·数据管理与数据工程