欢迎光临
免费的PDF电子书下载网站

大数据质量 PDF下载

编辑推荐

《大数据质量》为“大数据技术与应用”丛书之一,列入“十三五”国家重点图书出版规划项目。《大数据质量》共7章。第1章叙述数据质量的概况,列举出数据质量的影响和产生因素、数据质量的定义及面临的挑战、以及数据质量与信息质量的关系。第2章介绍了与数据质量有关的各种国际标准和行业标准。第3章讨论了数据分类和数据模型,并针对半结构化和非结构化数据,给出了一些数据模型和质量模型。第4章详细阐述数据质量的相关技术,包括:数据集成、数据剖析、数据清洁和数据溯源,并给出它们在大数据环境下的实现技术和方案。第5章详细论述了数据质量评估维度的选取,质量维度的测量和评估方法,同时,每一种常用的评估方法都给出具体的评估案例。第6章描述数据质量的管理方法和质量管理成熟度模型。第7章以位置大数据为例,详细分析了位置大数据的来源、质量问题,评估模型和质量控制,给出确实可行的数据质量解决方法。 ;

内容简介

数据作为一种基础性与战略性资源得到了广泛认可,数据服务成为很多组织和机构日常运营中必不可少的重要环节。当下,数据质量在理论越来越受到关注,不仅是制约数据产业发展的关键问题,也是大数据应用研究中绕不开的重大问题。《大数据质量》汇集了国内外数据质量研究的经典理论、技术和方法,以及新的前沿发展趋势;首先介绍了传统数据质量研究的各种代表性成果,并在此基础上,分析大数据时代下数据质量面临的挑战,并详细介绍基于大数据的数据质量相关技术的实现;*后,通过一个实际案例,提出一套完整的大数据质量解决方案。

作者简介

蔡莉,副教授,云南大学软件学院系主任,中国计算机学会西南网络与MIS专委会委员,昆明市仪器仪表学会理事。在软件学院工作期间,主持国家自然科学基金、教育部、云南省科技厅和教育厅等多项数据挖掘和数据质量的科研项目;同时,在国内外重要期刊和会议上发表40余篇论文,多篇被SCI和EI检索。出版教材2部,拥有3个软件著作权,并获得过多个教学成果奖励。

朱扬勇,复旦大学教授、博士生导师,数据科学研究中心主任、上海市政府信息化专家委员会专家。致力于数据科学与技术、数据挖掘及其应用等领域。主持过国家自然科学基金、国家863项目、上海市科委重点等多项数据挖掘领域的研究课题。

大数据质量 PDF下载

目录


 

第1章 理解数据质量 ·1.1 数据质量问题 1.1.1 数据质量带来的影响 1.1.2 影响数据质量的因素 ·1.2 数据质量概述 1.2.1 数据质量定义 1.2.2 大数据时代数据质量面临的挑战 ·1.3 数据质量与信息质量 1.3.1 从数据质量到信息质量的发展历程 1.3.2 数据质量与信息质量的区别与联系 参考文献第2章 数据质量标准 ·2.1 ISO8000国际标准 2.1.1 ISO8000的历史与现状 2.1.2 ISO/TS8000—100系列概述 2.1.3 ISO/TS8000—100主数据质量 2.1.4 ISO 22745:2010概述 ·2.2 地理信息质量标准ISO19100 2.2.1 地理信息数据质量 2.2.2 地理信息数据质量评价 ·2.3 统计数据质量标准 2.3.1 国际统计数据标准概述 2.3.2 IMF、的数据公布通用标准(GDDS) 2.3.3 IMF的数据公布特殊标准(SDDS) ·2.4 科学数据质量标准 2.4.1 科学数据标准规范 2.4.2 科学数据质量框架 参考文献第3章 数据分类及数据模型 ·3.1 数据类型及分类 3.1.1 数据类型 3.1.2 数据分类 ·3.2 结构化数据模型 3.2.1 概念模型 3.2.2 逻辑模型 ·3.3 半结构化和非结构化数据模型 3.3.1 XML语言 3.3.2 半结构化数据模型——数据和数据质量(D2Q)模型 3.3.3 非结构化数据模型——四面体模型 参考文献第4章 数据质量相关技术 ·4.1 数据集成 4.1.1 数据仓库的基本概念 4.1.2 数据仓库的体系架构 4.1.3 数据仓库的元数据 ·4.2 数据剖析 4.2.1 数据剖析的方法 4.2.2 数据剖析实例 ·4.3 数据清洁 4.3.1 数据清洁概述 4.3.2 “脏”数据的来源 4.3.3 数据清洁的原理与框架 4.3.4 数据清洁工具 4.3.5 大数据环境下的数据清洁 ·4.4 数据溯源 4.4.1 数据溯源的基本概念 4.4.2 数据溯源的分类 4.4.3 数据溯源模型 4.4.4 数据溯源的方法 4.4.5 数据溯源的应用 4.4.6 大数据溯源 参考文献第5章 数据质量评估 ·5.1 数据质量维度 5.1.1 数据质量维度定义 5.1.2 常用的数据质量维度 5.1.3 其他的数据质量维度 5.1.4 质量维度度量 ·5.2 数据质量评估框架 5.2.1 DQAF框架 5.2.2 AIMQ框架 5.2.3 DQA框架 ·5.3 数据质量评估方法 5.3.1 定性评估 5.3.2 定量评估 5.3.3 综合评估 ·5.4 数据质量评估案例——媒体信息可信度质量评估 5.4.1 背景概述 5.4.2 媒体信息可信度评价指标体系 5.4.3 媒体信息可信度的综合评价模型 5.4.4 实验过程及结果分析 参考文献第6章 数据质量管理 ·6.1 质量管理 6.1.1 质量管理发展历程 6.1.2 全面质量管理 ·6.2 数据质量管理概述 6.2.I数据质量管理方法 6.2.2 数据质量知识库管理 6.2.3 MTT全面数据质量管理 ·6.3 数据质量管理团队建设 6.3.1 任命首席数据官 6.3.2 建立数据质量管理团队 ·6.4 质量管理成熟度模型 6.4.1 信息质量管理成熟度模型 6.4.2 数据质量管理成熟度模型 参考文献第7章 位置大数据中的质量研究 ·7.1 概述 7.1.1 位置大数据的来源 7.1.2 位置大数据的应用领域 ·7.2 位置大数据面临的质量问题 7.2.1 GPS轨迹数据的质量问题 7.2.2 签到数据的质量问题 7.2.3 手机定位数据的质量问题 7.2.4 智能公交IC卡数据的质量问题 7.2.5 OSM地图数据的质量问题 ·7.3 位置大数据的质量评估模型 7.3.1 GPS轨迹数据的质量评估模型 7.3.2 签到数据的质量评估模型 7.3.3 手机定位数据的质量评估模型 7.3.4 OSM地图数据的质量评估模型 7.3.5 基于云平台的位置大数据质量评估系统 ·7.4 位置大数据质量控制 7.4.1 位置大数据清洁 7.4.2 位置大数据质量控制 7.4.3 OSM地图数据质量保证 参考文献

前沿

质量是关于符合性的一种度量,即符合国际/国家标准或者符合使用者需求的程度。ISO 9000系列质量体系是一个公认的国际标准,被全球110多个国家采用,既包括发达国家,也包括发展中国家。这一标准的执行使得市场竞争更加激烈,产品和服务质量得到日益提高。
国际标准化组织制订的国际标准——《质量管理体系基础和术语》(ISO 9000: 2008)中指出: 产品质量是指产品的一组固有特性满足要求的程度。与通常的有形产品不同,数据常常被认为是无形的,数据质量的评价要困难很多。1980年以来,学术界、工业界和国际组织针对数据质量的测量、评估和管理提出了许多理论、技术和方法,却缺乏一个广泛认可的标准。ISO正在开发的数据质量国际标准(ISO 8000),目前也只有20多个国家接受它。
除了数据是无形的之外,建立数据质量标准的又一难点在于数据具备资源性、产品性和服务性。数据的资源性是指数据类似于矿藏和原矿,强调的是可开采性和可利用性;数据的产品性是指数据经过加工后可以形成数据产品,进入市场流通;数据的服务性是指数据能够以提供服务的方式进入市场,使用者不需要购买和拥有数据,只是使用了数据服务。因此,从这三个大类的性质来看,数据质量的评价体系就存在很大差异,而且每个类别都会面临不同的需求符合性。
数据作为一种基础性资源和一种战略性资源,已经获得广泛认可,数据服务业已广泛开展,各地数据交易所纷纷成立;这时,数据质量就逐渐成为制约数据产业发展的关键问题。此外,由于大数据自身特性,直接采用传统的、面向结构化数据的质量理论和方法来处理质量问题并不合适,数据质量的研究在新环境下面临着更大的挑战。
数据作为一种特殊资源,其质量应当符合真实性、合法性和可用性的基本要求。本书主要从数据的资源性来阐述数据质量,在传统数据质量研究的基础上,结合大数据的特性,阐述基于大数据的数据质量相关技术的实现,并通过一个实际案例,提出一套完整的大数据质量解决方案。
本书共7章。第1章叙述数据质量的概况,列举出数据质量的影响和产生因素、数据质量的定义及面临的挑战,以及数据质量与信息质量的关系。第2章介绍了与数据质量有关的各种国际标准和行业标准。第3章讨论了数据分类和数据模型,并针对半结构化和非结构化数据,给出了一些数据模型和质量模型。第4章详细阐述数据质量的相关技术,包括: 数据集成、数据剖析、数据清洁和数据溯源,并给出它们在大数据环境下的实现技术和方案。第5章详细论述了数据质量评估维度的选取,质量维度的测量和评估方法,同时每一种常用的评估方法都给出具体的评估案例。第6章描述数据质量的管理方法和质量管理成熟度模型。第7章以位置大数据为例,详细分析了位置大数据的来源、质量问题,评估模型和质量控制,给出确实可行的数据质量解决方法。
本书可作为高等院校相关专业高年级学生和研究生的数据质量课程教材,以及从事数据质量研究和应用的科技工作者的技术参考。
特别感谢国内外数据质量专著、教材和许多高水平论文报告的作者们,他们是黄伟、刁兴春、曹建军、黎建辉、樊文飞、Richard Y. Wang、Yang W. Lee、Elizabeth M. Pierce、Danette McGilvray、John Talburt、Carlo Batini、Monica Scannapieca等教授。在本书中引用了他们的部分成果,使本书较全面地反映数据质量各个研究领域的最新进展。感谢李英姿、李永轩和周怡帆三位硕士研究生提供的支持。
本书由朱扬勇教授和蔡莉副教授共同策划并拟定框架内容,并由蔡莉副教授执笔,朱扬勇教授审阅修订。限于作者学术水平,错误之处难免,恳请读者不吝指教。任何意见和建议,请发至电子邮件: caili@ynu.edu.cn。对此,我们将深为感激。

大数据质量 pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:大数据质量