欢迎光临
免费的PDF电子书下载网站

数据集成原理(数据集成技术的权威之作!作者兼具学术与工业领域,对数据集成领域都有重要贡献,本书是数据集成相关工作人员的必读书籍) PDF下载

编辑推荐

暂无

内容简介

  当数据存储在多个数据库中,如何查询数据?特别是当这些数据库是由不同的人分别设计。这是第一个全面介绍数据集成的书,由业界三个最受人尊敬的专家撰写。这本书讲解数据集成技术的理论知识,使用大量实例来解释基本概念。数据集成是解决跨多个数据源(如数据库,网页)的问题。目前在多种环境中都涉及数据集成问题,包括企业信息集成,在网络上的查询处理,政府机构之间的协调和科学家之间的合作。在某些情况下,数据集成是某个领域取得进展的关键。本书提供了数据集成的概念和工具,可用于数据集成的具体实现。本书作者是威斯康星大学麦迪逊分校计算机科学副教授,同时在微软AdCenter实验室与雅虎研究实验室担任咨询顾问。

作者简介

  AnHai Doan 威斯康星大学麦迪逊分校计算机科学系副教授。

  Alon Halevy 谷歌结构化数据组负责人。

  Zachary Ives 宾夕法尼亚大学费城分校副教授。 ;

数据集成原理(数据集成技术的权威之作!作者兼具学术与工业领域,对数据集成领域都有重要贡献,本书是数据集成相关工作人员的必读书籍) PDF下载

目录


出版者的话 中文版序 译者序 前言 第1章 绪论 1.1 什么是数据集成 1.2 数据集成面临的挑战 1.2.1 系统原因 1.2.2 逻辑原因 1.2.3 社会和管理原因 1.2.4 设定预期 1.3 数据集成架构 1.3.1 数据集成系统的组成部分 1.3.2 数据集成实例 1.4 全书概览 参考文献注释 第一部分 数据集成技术基础 第2章 查询表达式及运算 2.1 数据库概念回顾 2.1.1 数据模型 2.1.2 完整性约束 2.1.3 查询和应答 2.1.4 合取查询 2.1.5 datalog查询 2.2 查询展开 2.3 查询包含与等价 2.3.1 形式化定义 2.3.2 合取查询的包含 2.3.3 合取查询的并集 2.3.4 带有比较谓词的合取查询 2.3.5 带有否定的合取查询 2.3.6 包语义、分组和聚集 2.4 基于视图计算查询 2.4.1 问题定义 2.4.2 视图与查询计算的相关性 2.4.3 查询重写的可能长度 2.4.4 桶算法和MiniCon算法 2.4.5 逻辑方法:逆规则算法 2.4.6 算法比较 2.4.7 基于视图的查询应答 参考文献注释 第3章 数据源描述 3.1 概述和必要条件 3.2 模式映射语言 3.2.1 模式映射语言规则 3.2.2 全局视图 3.2.3 局部视图 3.2.4 全局-局部视图 3.2.5 元组生成依赖 3.3 访问模式限制 3.3.1 构建访问模式限制 3.3.2 生成可执行计划 3.4 中介模式上的完整性约束 3.4.1 带有完整性约束的LAV 3.4.2 带有完整性约束的GAV 3.5 结果完备性 3.5.1 局部完备性 3.5.2 结果完备性检测 3.6 数据级的异构性 3.6.1 标度差异性 3.6.2 相同实体的多重表示 参考文献注释 第4章 字符串匹配 4.1 问题描述 4.2 相似度度量 4.2.1 基于序列的相似度度量 4.2.2 基于集合的相似度度量 4.2.3 混合相似度度量 4.2.4 语音相似度度量 4.3 可扩展的字符串匹配 …… 第5章 模式匹配与模式映射 第6章 通用模式操作 第7章 数据匹配 第8章 查询处理 第9章 包装器 第10章 数据仓库与缓存 第二部分 扩展数据表示集成 第11章 XML 第12章 本体和知识表示 第13章 不确定性数据集成 第14章 数据溯源 第三部分 新型集成系统 第15章 Web数据集成 第16章 关键字搜索:按需集成 第17章 对等数据集成 第18章 支持协同的集成 第19章 数据集成的未来 参考文献 索引

媒体评论

  这是一本数据集成技术的权威之作,书中的大部分技术都是作者提出来的。本书内容全面,很多技术细节都介绍得非常清楚,是数据集成相关工作人员的必读书籍。

  ----Philip A. Bernstein,微软杰出科学家

  本书的三位作者对数据集成领域都有重要贡献,既有学术背景,又有工业界的经历。书中包含很多例子和相关信息,以便于读者理解理论知识。本书包含了现代数据集成技术的很多方面,包括不同的集成方式、数据和模式匹配、查询处理和包装器,还包括Web以及多种数据类型和数据格式带来的挑战。本书非常适合作为研究生数据集成课程教材。

  ----Michael Carey,加州大学欧文分校信息与计算机科学Bren教授

 ;

免费在线读

  第 1章 绪  论
  Principles of Data Integration
  互联网的发明和万维网的出现彻底改变了人们获取存储在电子设备数据的方式。现在我们能够很容易通过浏览器或者智能手机进行查询,对数百万文档集合、商业数据库进行搜索,获取推荐信息、优惠券等。同样,也可以很方便地订购一台我们想要的计算机,并且在几天内收到该计算机,即使计算机配件分布在世界各地。为了提供这种服务,系统必须能够高效、准确地处理互联网上的大量数据。但是,不同于传统的数据管理应用,如公司的工资管理系统这种新服务需要在多个应用程序和组织之间共享数据,并能将数据以灵活、高效的方式集成起来。本书涵盖了数据集成的基本原理,以及一些数据共享和数据集成技术。
  1.1 什么是数据集成
  我们通过两个实际的例子来说明数据集成的必要性。一个是企业应用,另一个是Web应用。例1.1 FullServe是一家提供家庭互联网接入的公司,同时也卖一些支持家庭计算的基础设施产品,如调制解调器、无线路由器、IP语音电话和咖啡机。FullServe是一家以美国为主的公司,最近决定把市场扩大到欧洲。为了扩大市场,FullServe收购了一家欧洲公司EuroCard,它是一个信用卡供应商,最近已开始利用其客户基础,进军互联网市场 这里提到的公司名字和它们之间的业务往来纯属虚构,但在当今的市场中很常见。。
  图1-1 FullServe公司示例数据库。对每一个数据库,列举了一些表及其属性。例如,员工(Employee)数据库有一个表FullTimeEmps,该表的属性包括:ssn、empID、lastName、middleName和firstName
  像FullServe这样的公司常常有上百个分散在不同地方的数据库,图1-1展示了FullServe数据库集合的一个简单版本。人力资源部有一个存储员工信息的数据库,全职员工和临时工分开,还有另外一个单独存放申请者简历的数据库,包括现有员工的简历。培训和发展部有一个单独的数据库用来保存每个员工接受的培训课程,包括内部和外部的培训课程。销售部门有一个保存服务和当前订购者的数据库,另一个数据库保存产品和客户信息。最后,客户服务部门维护着一个数据库,用于保存他们的客户服务热线收到的用户来电和电话内容详细信息。
  FullServe收购EuroCard公司后,也继承了他们的数据库,如图1-2所示。EuroCard有一些和FullServe类似的数据库,但由于各自不同的地理位置和业务重点,也有一些明显的差异。

数据集成原理(数据集成技术的权威之作!作者兼具学术与工业领域,对数据集成领域都有重要贡献,本书是数据集成相关工作人员的必读书籍) pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版