内容简介
随着The Data Warehouse Toolkit(1996)第1版的出版发行,Ralph Kimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度建模技术、模式和*实践的权威资源。
这本《数据仓库工具箱(第3版)——维度建模权威指南》汇集了到目前为止*全面的维度建模技术。本书采用新的思路和*实践对上一版本进行了全面修订,给出了设计维度模型的全面指南,既适合数据仓库新手,也适合经验丰富的专业人员。
本书涉及的所有技术都基于作者实际从事DW/BI的设计经验,通过实际案例加以描述。
主要内容
◆ 实用设计技术——有关维度和事实表的基本和高级技术
◆ 14个案例研究,涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等
◆ 为12个案例研究提供了数据仓库总线矩阵示例
作者简介
Ralph Kimball博士自1982年以来,一直是数据仓库和商业智能行业的思想开拓者。自1996年以来,The Data Warehouse Toolkit系列书籍一直是最受读者欢迎的畅销书。
Margy Ross是Kimball集团总裁,她与Ralph Kimball合作撰写了5本工具箱系列书籍。她关注数据仓库和商业智能已有30多年的历史。
目录
第1章 数据仓库、商业智能及维度建模初步
1.1 数据获取与数据分析的区别
1.2 数据仓库与商业智能的目标
1.3 维度建模简介
1.3.1 星型模式与OLAP多维数据库
1.3.2 用于度量的事实表
1.3.3 用于描述环境的维度表
1.3.4 星型模式中维度与事实的连接
1.4 Kimball的DW/BI架构
1.4.1 操作型源系统
1.4.2 获取.转换_加口载(ETL)系统
1.4.3 用于支持商业智能决策的展现区
1.4.4 商业智能应用
1.4.5 以餐厅为例描述Kimball架构
1.5 其他DW/BI架构
1.5.1 独立数据集市架构]
1.5.2 辐射状企业信息工厂Inmon架构
1.5.3 混合辐射状架构与Kimball架构
1.6 维度建模神话
1.6.1 神话1:维度模型仅包含汇总数据
1.6.2 神话2:维度模型是部门级而不是企业级的
1.6.3 神话3:维度模型是不可扩展的
1.6.4 神话4:维度模型仅用于预测
1.6.5 神话5:维度模型不能被集成
1.7 考虑使用维度模型的
更多理由
1.8 本章小结
第2章 Kimball维度建模技术概述
2.1 基本概念
2.1.1 收集业务需求与数据实现
2.1.2 协作维度建模研讨
2.1.3 4步骤维度设计过程
2.1.4 业务过程
2.1.5 粒度
2.1.6 描述环境的维度
2.1.7 用于度量的事实
2.1.8 星型模式与OLAP多维数据库
2.1.9 方便地扩展到维度模型
2.2 事实表技术基础
2.2.1 事实表结构
2.2.2 可加、半可加、不可加事实
2.2.3 事实表中的空值
2.2.4 一致性事实
2.2.5 事务事实表
2.2.6 周期快照事实表
2.2.7 累积快照事实表
2.2.8 无事实的事实表
2.2.9 聚集事实表或OLAP多维数据库
2.2.1 0合并事实表
2.3 维度表技术基础
2.3.1 维度表结构
2.3.2 维度代理键
2.3.3 自然键、持久键和超自然键
2.3.4 下钻
2.3.5 退化维度
2.3.6 非规范化扁平维度
2.3.7 多层次维度
2.3.8 文档属性的标识与指示器
2.3.9 维度表中的空值属性
2.3.10 日历日期维度
2.3.11 扮演角色的维度
2.3.12 杂项维度
2.3.13 雪花维度
2.3.14 支架维度
2.4 使用一致性维度集成
2.4.1 一致性维度
2.4.2 缩减维度
2.4.3 跨表钻取
2.4.4 价值链
2.4.5 企业数据仓库总线架构
2.4.6 企业数据仓库总线矩阵
2.4.7 总线矩阵实现细节
2.4.8 机会/利益相关方矩阵
2.5 处理缓慢变化维度属性
2.5.1 类型0:原样保留
2.5.2 类型1:重写
2.5.3 类型2:增加新行
2.5.4 类型3:增加新属性
2.5.5 类型4:增加微型维度
2.5.6 类型5:增加微型维度及类型1支架
2.5.7 类型6:增加类型1属性到类型2维度
2.5.8 类型7:双类型l和类型2维度
2.6 处理维度层次关系
2.6.1 固定深度位置的层次
2.6.2 轻微参差不齐/可变深度层次
2.6.3 具有层次桥接表的参差不齐/可变深度层次
2.6.4 具有路径字符属性的可变深度层次
2.7 高级事实表技术
2.7.1 事实表代理键
2.7.2 蜈蚣事实表
2.7.3 属性或事实的数字值
2.7.4 日志/持续时间事实
2.7.5 头/行事实表
2.7.6 分配的事实
2.7.7 利用分配建立利润与损失事实表
2.7.8 多种货币事实
2.7.9 多种度量事实单位
2.7.1 0年.日事实
2.7.1 1多遍SQL以避免事实表间的连接
2.7.1 2针对事实表的时间跟踪1
2.7.1 3迟到的事实
2.8 高级维度技术
2.8.1 维度表连接
2.8.2 多值维度与桥接表
2.8.3 随时间变化的多值桥接表
2.8.4 标签的时间序列行为
2.8.5 行为研究分组
2.8.6 聚集事实作为维度属性
2.8.7 动态值范围
2.8.8 文本注释维度
2.8.9 多时区
2.8.10 度量类型维度
……
第3章 零售业务
第4章 库存
第5章 采购
第6章 订单管理
第7章 会计
第8章 客户关系管理
第9章 人力资源管理
第10章 金融服务
第11章 电信
第12章 交通运输
第13章 教育
第14章 医疗卫生
第15章 电子商务
第16章 保险业务
第17章 KimballDW/BI生命周期概述
第18章 维度建模过程与任务
第19章 ETL子系统与技术
第20章 ETL系统设计与开发过程和任务
第21章 大数据分析
前沿
自Ralph Kimball于1996年首次出版The Data Warehouse Toolkit(Wiley)一书以来,数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)行业渐趋成熟。尽管初期仅有部分大型公司采用,但从那时起,DW/BI逐渐为各种规模的公司所青睐。业界已建立了数以千计的DW/BI系统。随着数据仓库原子数据的不断增加以及更新越来越频繁,数据容量不断增长。在我们的职业生涯中,我们见证了数据库容量从MB到GB再到TB甚至PB的发展过程,但是,DW/BI系统面临的基本挑战并未发生重大变化。我们的工作就是管理组织中的数据并将其用于业务用户的决策制定过程中。总的来说,您必须实现这一目标,确保商务人士制定更好的决策,并从他们的DW/BI投资中获得回报。 自The Data Warehouse Toolkit第1版出版以来,维度建模作为一种主要的DW/BI展现技术受到广泛认可。从业者与学者都认识到数据展现要获得成功,就必须建立在简单性的基础之上。简单性是使用户能够方便地理解数据库,使软件能够方便地访问数据库的基础性的关键要素。许多情况下,维度建模就是时刻考虑如何能够提供简单性。坚定不移地回到业务驱动的场景,坚持以用户的可理解性和查询性能为目标,才能建立始终如一地服务于组织的分析需求的设计。维度建模框架将成为BI的平台。基于我们多年来积累的经验以及大量实践者的反馈,我们相信维度建模是DW/BI项目成功的关键。 维度建模还是建立集成化的DW/BI系统的主导结构。当您使用维度模型的一致性维度和一致性事实时,可以增量式地建立具有可实践的、可预测的、分布式的复杂DW/BI系统的框架。 尽管业界的一切始终在变化,但Ralph Kimball于17年前提出的核心维度建模技术经受住了时间的考验。诸如一致性维度、缓慢变化维度、异构产品、无事实的事实表以及企业数据仓库总线矩阵等概念仍然是全球范围内设计论坛所讨论的问题。最初的概念通过新的和互补的技术被逐渐完善并强化。我们决定对Kimball的书籍发行第3版,因为我们感到有必要将我们所收集到的维度建模经验汇集到一本书中。我们每个人都具有30年以上的关注决策支持、数据仓库和业务智能的经历。我们希望分享在职业生涯中反复利用的维度建模模式。本书还包含基于现实场景的特定的实践性的设计建议。 本书的目标是提供维度建模技术的一站式商店。正如书名所体现的那样,本书是一本维度设计原则和技术的工具箱。本书既能满足那些刚刚进入维度DW/BI行业的新手的需要,也描述了许多高级概念以满足那些长期战斗在这一行业的老手的需要。我们相信本书在维度建模主题方面所涵盖内容的深度是独一无二的。本书是权威性的指南。 预期读者 本书面向数据仓库和商业智能设计人员、实践人员和管理人员。此外,积极参与DW/BI项目的业务分析人员和数据管理者也会发现本书内容对他们来说是非常有益的。 即使您并未直接负责维度模型的开发工作,但我们相信熟悉维度建模的概念对项目组所有成员都是非常重要的。维度模型对DW/BI实现的许多方面都有影响,从业务需求的转换开始,通过获取、转换和加载(ETL)过程,最后到通过商业智能应用发布数据仓库的整个过程。由于涉及内容的广泛性,无论您是主要负责项目管理、业务分析、数据结构、数据库设计、ETL和BI应用,还是教育和支持,都需要熟悉维度建模。本书适合于方方面面的读者。 对那些已经阅读过本书前期版本的读者来说,在本书中将发现一些熟悉的案例研究,然而,这些案例都被更新了,增加了更丰富的内容,几乎每个案例都包括样例企业数据仓库总线矩阵。我们为新的主题区域(包括大数据分析)提供了相应内容。 本书内容偏向对技术的讨论。主要从关系数据库环境出发讨论维度建模,这一环境与联机分析处理(OLAP)存在的细微差别在适当之处都进行了说明。本书假定读者对关系数据库概念有一定的了解,例如表、行、键和连接等。鉴于我们在讨论维度模型时不采用某一特定的方法,所以不会就某一特定数据库管理系统具体的物理设计和调整指导展开深入的讨论。 各章预览 本书将围绕一系列商业场景或案例研究进行组织。我们相信通过实例来研究设计技术是最有效的方法,因为这样做可以使我们分享非常实际的指导以及现实世界的适用经验。尽管未提供完整的应用或业界解决方案,但这些案例可用来讨论出现在维度建模中的模式。据我们的经验来看,通过远离自己所熟悉的复杂问题,更容易抓住设计技术的要素。阅读过本书以前各版本的读者对这一方法的反应非常积极。 请注意我们在第2章未采用案例研究方法。鉴于Kimball集团所发明的维度建模技术得到行业的广泛认可,我们整理出了这些技术,并简短地进行了描述。尽管并不指望读者会像阅读其他章节那样从头到尾仔细阅读,但我们觉得这一以技术为中心的章节对读者来说是一种有益的参考。 除第2章以外,本书其他章节相互关联。我们以基本概念开始,随着内容的展开,介绍了更高级的内容。读者应该顺序阅读各章。例如,除非您阅读了第16章之前有关零售、采购、订单管理和客户关系管理的那几章的内容,否则很难理解第16章的相关内容。 对那些已经阅读过本书以前版本的读者来说,可能会忽略前面几章。尽管对前面的事实和维度比较熟悉,但不希望读者跳过太多的章节,否则可能会错过一些已经更新的基本概念。 第1章:数据仓库、商业智能及维度建模初步 本书以数据仓库、商业智能及维度建模入门开始,探讨了整个DW/BI结构的所有组件并建立了本书其他章节所用到的核心词汇。消除了一些有关维度建模的神化和误解。 第2章:Kimball维度建模技术概述 本章描述了超过75个维度建模技术以及模式。 第3章:零售业务 零售是用于描述维度建模的经典实例。我们之所以从该行业开始讨论是因为该行业为大众所熟悉。并不需要大家都对该行业有非常深入的了解,因为我们主要是希望通过该章的学习使大家能够关注核心的维度建模概念。该章以设计维度模型常用的4步过程开始,对维度表开展了深入的研究,包括贯穿全书反复使用的日期维度。同时,我们还讨论了退化维度、雪花维度以及代理键。即使您并不从事零售行业的工作,也需要仔细阅读这一章,因为该章是其他各章的基础。 第4章:库存 该章是对第3章零售业讨论的延伸,讨论了零售业的另一个案例,但请将注意力转移到零售业的另一个业务过程上。该章介绍了企业数据仓库总线架构以及具有一致性维度的总线矩阵。这些概念对那些希望建立集成的、可扩展的DW/BI架构的人来说是非常关键的一章。我们还讨论了三种基础类型的事实表:事务、周期快照和累积快照。 第5章:采购 该章强调了在构思DW/BI环境时,企业组织的价值链的重要性。我们还探讨了用于处理缓慢变化维度属性的一系列基础的和高级的技术;讨论了基本的类型1(重写)、类型2(增加行)和类型3(增加列),并在此基础上介绍了类型0,以及类型4~类型7。 第6章:订单管理 在研究该案例时,我们考察了在DW/BI系统中常常需要首先考虑实现的业务过程,因为这些过程支持核心业务性能度量——我们将哪些商品以何种价格卖给哪些顾客?讨论了在模式中扮演多种角色的维度。还讨论了在处理订单管理信息时,建模人员将会面对的常见挑战,例如,表头/列表项考虑、多币种或多种度量单位,以及五花八门的事务标识符的杂项维度等。 第7章:会计 该章主要讨论了建模数据仓库中的总账信息。描述了处理年度-日期(year-to-date)事实和多种财政日历,以及将多个业务过程中的数据合并到事实表的适当方法。还对维度属性层次提供了详细的指导,从简单的规范的固定深度层次到包含参差不齐的可变深度层次的桥接表。 第8章:客户关系管理 大量的DW/BI系统建立在需要更好地理解客户并向其提供服务的前提下。该章讨论了客户维度,包括标准化地址和处理多值维度属性的桥接表。该章还讨论了对复杂的客户行为建模的模式,以及如何从多个数据源中合并客户数据的方法。 第9章:人力资源管理 该章讨论了人力资源维度模型具有的几种特性,包括那些维度表行为类似事实表的情况。该章讨论了分析方案软件包,以及对递归管理层次及调查问卷的处理方法。对几种处理多值技能关键词属性的方法进行了比较。 第10章:金融服务 银行案例研究探讨了那些每个业务列表项具有特定描述性属性和性能度量的异构产品的超类和子类模式的概念。显然,并不是只有金融服务行业需要处理异构产品。该章还讨论了账户、客户和家庭之间所存在的复杂关系。 第11章:电信 该章从结构上来看与前几章有一些差别,主要是为了鼓励读者在执行维度模型设计评审时辩证地考虑问题。该章从乍看似乎是合理的维度设计开始。您能够从中发现什么问题?此外,该章还讨论了地理位置维度的特性。 第12章:交通运输 该章的案例考察了不同粒度级别的相关事实表,指出描述旅程或网络中区段的事实表的特性。进一步深入考察了日期和时间维度,包括特定国家日历和跨多个时区的同步问题。 第13章:教育 该章考察了几类无事实的事实表。此外,探讨了处理学生应用和研究基金申请流水线的累积快照事实表。该章为读者提供了了解教育团体中各种各样业务过程的机会。 第14章:医疗卫生 我们所遇见的最复杂的模型来自医疗卫生行业。该章描述了处理此类复杂性的方法,包括使用桥接表建模多项诊断以及与病人治疗事件相关的提供商。 第15章:电子商务 该章主要关注点击流Web数据的细节,包括其独有的多维性。该章还介绍了用于更好地理解包含顺序步骤的任何过程的步骤维度。 第16章:保险业务 作为本书提供的最后一个案例研究,我们将书中前述的各个模式关联到一起。可将该章看成是对以前各个章节的总结,因为这些建模技术按层次划分。 第17章:Kimball DW/BI生命周期概述 通过前述章节的介绍,您已经熟悉了维度模型的设计方法,该章概述了在典型的DW/BI项目生命周期中将会遇到的活动。该章是对由我们与Bob Becker、Joy Mundy和Warren Thornthwaite共同编写的The Data Warehouse Lifecycle Toolkit, Second Edition(Wiley, 2008)一书的简短概述。 第18章:维度建模过程与任务 该章对处理Kimball生命周期中的维度建模任务提出了具体的建议。本书的前16章包含维度建模技术和设计模式;该章描述责任、操作方式,以及维度建模设计活动的发布物。 第19章:ETL子系统与技术 在构建DW/BI环境时,ETL(获取、转换、加载)系统将会消耗大量的时间和精力,与其他部分工作比较,几乎不成比例。仔细考虑的最佳实践揭示了在几乎所有维度数据仓库后端都将发现的34个子系统。该章首先讨论了在设计ETL系统之前必须考虑的需求和约束,然后描述了34个与获取、清洗、一致性、发布和管理有关的子系统。 第20章:ETL系统设计与开发过程和任务 该章深入探讨了与ETL设计和开发活动有关或无关的具体技术。那些对ETL负有责任的读者都应该阅读本章。 第21章:大数据分析 最后一章主要关注大数据这一正在流行的主题。我们认为,大数据是对DW/BI系统的自然扩展。首先讨论了几种可选的结构,包括MapReduce和Hadoop,描述了这些可选系统如何与当前的DW/BI结构共存的问题。接着讨论了针对大数据的管理、结构、数据建模和数据治理的最佳实践。 Web资源 Kimball集团网站包含许多补充的维度建模内容和资源: ● 注册Kimball Design Tips可收到有关维度建模和DW/BI主题的实践指导。 ● 访问目录可获得300个设计技巧和文章。 ● 通过学习Kimball大学公开的和现场的课程,可获得高质量、独立于提供商的教育,并分享我们的经验和文章。 ● 获得Kimball集团咨询服务以利用我们几十年积累的有关DW/BI的宝贵经验。 ● 向Kimball论坛的其他维度设计参与者提问。 小结 本书的写作目标是基于作者60多年来从实际业务环境中获得的经验和来之不易的教训,为读者提供正式的维度设计和开发技术。DW/BI系统必须以业务用户的需求来驱动,如此才能真正从维度角度设计和展现。我们坚信,如果您能够接受这一前提,将会朝建立成功的DW/BI系统迈出巨大的一步。 既然知道从何开始,请开始仔细阅读本书。在第1章中将讨论DW/BI和维度建模的基本内容,确保每个人对关键术语和结构性概念具有统一的认识。
免费在线读
自Ralph Kimball于1996年首次出版The Data Warehouse Toolkit(Wiley)一书以来,数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)行业渐趋成熟。尽管初期仅有部分大型公司采用,但从那时起,DW/BI逐渐为各种规模的公司所青睐。业界已建立了数以千计的DW/BI系统。随着数据仓库原子数据的不断增加以及更新越来越频繁,数据容量不断增长。在我们的职业生涯中,我们见证了数据库容量从MB到GB再到TB甚至PB的发展过程,但是,DW/BI系统面临的基本挑战并未发生重大变化。我们的工作就是管理组织中的数据并将其用于业务用户的决策制定过程中。总的来说,您必须实现这一目标,确保商务人士制定更好的决策,并从他们的DW/BI投资中获得回报。
自The Data Warehouse Toolkit第1版出版以来,维度建模作为一种主要的DW/BI展现技术受到广泛认可。从业者与学者都认识到数据展现要获得成功,就必须建立在简单性的基础之上。简单性是使用户能够方便地理解数据库,使软件能够方便地访问数据库的基础性的关键要素。许多情况下,维度建模就是时刻考虑如何能够提供简单性。坚定不移地回到业务驱动的场景,坚持以用户的可理解性和查询性能为目标,才能建立始终如一地服务于组织的分析需求的设计。维度建模框架将成为BI的平台。基于我们多年来积累的经验以及大量实践者的反馈,我们相信维度建模是DW/BI项目成功的关键。
维度建模还是建立集成化的DW/BI系统的主导结构。当您使用维度模型的一致性维度和一致性事实时,可以增量式地建立具有可实践的、可预测的、分布式的复杂DW/BI系统的框架。
尽管业界的一切始终在变化,但Ralph Kimball于17年前提出的核心维度建模技术经受住了时间的考验。诸如一致性维度、缓慢变化维度、异构产品、无事实的事实表以及企业数据仓库总线矩阵等概念仍然是全球范围内设计论坛所讨论的问题。最初的概念通过新的和互补的技术被逐渐完善并强化。我们决定对Kimball的书籍发行第3版,因为我们感到有必要将我们所收集到的维度建模经验汇集到一本书中。我们每个人都具有30年以上的关注决策支持、数据仓库和业务智能的经历。我们希望分享在职业生涯中反复利用的维度建模模式。本书还包含基于现实场景的特定的实践性的设计建议。
本书的目标是提供维度建模技术的一站式商店。正如书名所体现的那样,本书是一本维度设计原则和技术的工具箱。本书既能满足那些刚刚进入维度DW/BI行业的新手的需要,也描述了许多高级概念以满足那些长期战斗在这一行业的老手的需要。我们相信本书在维度建模主题方面所涵盖内容的深度是独一无二的。本书是权威性的指南。
预期读者
本书面向数据仓库和商业智能设计人员、实践人员和管理人员。此外,积极参与DW/BI项目的业务分析人员和数据管理者也会发现本书内容对他们来说是非常有益的。
即使您并未直接负责维度模型的开发工作,但我们相信熟悉维度建模的概念对项目组所有成员都是非常重要的。维度模型对DW/BI实现的许多方面都有影响,从业务需求的转换开始,通过获取、转换和加载(ETL)过程,最后到通过商业智能应用发布数据仓库的整个过程。由于涉及内容的广泛性,无论您是主要负责项目管理、业务分析、数据结构、数据库设计、ETL和BI应用,还是教育和支持,都需要熟悉维度建模。本书适合于方方面面的读者。
对那些已经阅读过本书前期版本的读者来说,在本书中将发现一些熟悉的案例研究,然而,这些案例都被更新了,增加了更丰富的内容,几乎每个案例都包括样例企业数据仓库总线矩阵。我们为新的主题区域(包括大数据分析)提供了相应内容。
本书内容偏向对技术的讨论。主要从关系数据库环境出发讨论维度建模,这一环境与联机分析处理(OLAP)存在的细微差别在适当之处都进行了说明。本书假定读者对关系数据库概念有一定的了解,例如表、行、键和连接等。鉴于我们在讨论维度模型时不采用某一特定的方法,所以不会就某一特定数据库管理系统具体的物理设计和调整指导展开深入的讨论。
各章预览
本书将围绕一系列商业场景或案例研究进行组织。我们相信通过实例来研究设计技术是最有效的方法,因为这样做可以使我们分享非常实际的指导以及现实世界的适用经验。尽管未提供完整的应用或业界解决方案,但这些案例可用来讨论出现在维度建模中的模式。据我们的经验来看,通过远离自己所熟悉的复杂问题,更容易抓住设计技术的要素。阅读过本书以前各版本的读者对这一方法的反应非常积极。
请注意我们在第2章未采用案例研究方法。鉴于Kimball集团所发明的维度建模技术得到行业的广泛认可,我们整理出了这些技术,并简短地进行了描述。尽管并不指望读者会像阅读其他章节那样从头到尾仔细阅读,但我们觉得这一以技术为中心的章节对读者来说是一种有益的参考。
除第2章以外,本书其他章节相互关联。我们以基本概念开始,随着内容的展开,介绍了更高级的内容。读者应该顺序阅读各章。例如,除非您阅读了第16章之前有关零售、采购、订单管理和客户关系管理的那几章的内容,否则很难理解第16章的相关内容。
对那些已经阅读过本书以前版本的读者来说,可能会忽略前面几章。尽管对前面的事实和维度比较熟悉,但不希望读者跳过太多的章节,否则可能会错过一些已经更新的基本概念。
第1章:数据仓库、商业智能及维度建模初步
本书以数据仓库、商业智能及维度建模入门开始,探讨了整个DW/BI结构的所有组件并建立了本书其他章节所用到的核心词汇。消除了一些有关维度建模的神化和误解。
第2章:Kimball维度建模技术概述
本章描述了超过75个维度建模技术以及模式。
第3章:零售业务
零售是用于描述维度建模的经典实例。我们之所以从该行业开始讨论是因为该行业为大众所熟悉。并不需要大家都对该行业有非常深入的了解,因为我们主要是希望通过该章的学习使大家能够关注核心的维度建模概念。该章以设计维度模型常用的4步过程开始,对维度表开展了深入的研究,包括贯穿全书反复使用的日期维度。同时,我们还讨论了退化维度、雪花维度以及代理键。即使您并不从事零售行业的工作,也需要仔细阅读这一章,因为该章是其他各章的基础。
第4章:库存
该章是对第3章零售业讨论的延伸,讨论了零售业的另一个案例,但请将注意力转移到零售业的另一个业务过程上。该章介绍了企业数据仓库总线架构以及具有一致性维度的总线矩阵。这些概念对那些希望建立集成的、可扩展的DW/BI架构的人来说是非常关键的一章。我们还讨论了三种基础类型的事实表:事务、周期快照和累积快照。
第5章:采购
该章强调了在构思DW/BI环境时,企业组织的价值链的重要性。我们还探讨了用于处理缓慢变化维度属性的一系列基础的和高级的技术;讨论了基本的类型1(重写)、类型2(增加行)和类型3(增加列),并在此基础上介绍了类型0,以及类型4~类型7。
第6章:订单管理
在研究该案例时,我们考察了在DW/BI系统中常常需要首先考虑实现的业务过程,因为这些过程支持核心业务性能度量——我们将哪些商品以何种价格卖给哪些顾客?讨论了在模式中扮演多种角色的维度。还讨论了在处理订单管理信息时,建模人员将会面对的常见挑战,例如,表头/列表项考虑、多币种或多种度量单位,以及五花八门的事务标识符的杂项维度等。
第7章:会计
该章主要讨论了建模数据仓库中的总账信息。描述了处理年度-日期(year-to-date)事实和多种财政日历,以及将多个业务过程中的数据合并到事实表的适当方法。还对维度属性层次提供了详细的指导,从简单的规范的固定深度层次到包含参差不齐的可变深度层次的桥接表。
第8章:客户关系管理
大量的DW/BI系统建立在需要更好地理解客户并向其提供服务的前提下。该章讨论了客户维度,包括标准化地址和处理多值维度属性的桥接表。该章还讨论了对复杂的客户行为建模的模式,以及如何从多个数据源中合并客户数据的方法。
第9章:人力资源管理
该章讨论了人力资源维度模型具有的几种特性,包括那些维度表行为类似事实表的情况。该章讨论了分析方案软件包,以及对递归管理层次及调查问卷的处理方法。对几种处理多值技能关键词属性的方法进行了比较。
第10章:金融服务
银行案例研究探讨了那些每个业务列表项具有特定描述性属性和性能度量的异构产品的超类和子类模式的概念。显然,并不是只有金融服务行业需要处理异构产品。该章还讨论了账户、客户和家庭之间所存在的复杂关系。
第11章:电信
该章从结构上来看与前几章有一些差别,主要是为了鼓励读者在执行维度模型设计评审时辩证地考虑问题。该章从乍看似乎是合理的维度设计开始。您能够从中发现什么问题?此外,该章还讨论了地理位置维度的特性。
第12章:交通运输
该章的案例考察了不同粒度级别的相关事实表,指出描述旅程或网络中区段的事实表的特性。进一步深入考察了日期和时间维度,包括特定国家日历和跨多个时区的同步问题。
第13章:教育
该章考察了几类无事实的事实表。此外,探讨了处理学生应用和研究基金申请流水线的累积快照事实表。该章为读者提供了了解教育团体中各种各样业务过程的机会。
第14章:医疗卫生
我们所遇见的最复杂的模型来自医疗卫生行业。该章描述了处理此类复杂性的方法,包括使用桥接表建模多项诊断以及与病人治疗事件相关的提供商。
第15章:电子商务
该章主要关注点击流Web数据的细节,包括其独有的多维性。该章还介绍了用于更好地理解包含顺序步骤的任何过程的步骤维度。
第16章:保险业务
作为本书提供的最后一个案例研究,我们将书中前述的各个模式关联到一起。可将该章看成是对以前各个章节的总结,因为这些建模技术按层次划分。
第17章:Kimball DW/BI生命周期概述
通过前述章节的介绍,您已经熟悉了维度模型的设计方法,该章概述了在典型的DW/BI项目生命周期中将会遇到的活动。该章是对由我们与Bob Becker、Joy Mundy和Warren Thornthwaite共同编写的The Data Warehouse Lifecycle Toolkit, Second Edition(Wiley, 2008)一书的简短概述。
第18章:维度建模过程与任务
该章对处理Kimball生命周期中的维度建模任务提出了具体的建议。本书的前16章包含维度建模技术和设计模式;该章描述责任、操作方式,以及维度建模设计活动的发布物。
第19章:ETL子系统与技术
在构建DW/BI环境时,ETL(获取、转换、加载)系统将会消耗大量的时间和精力,与其他部分工作比较,几乎不成比例。仔细考虑的最佳实践揭示了在几乎所有维度数据仓库后端都将发现的34个子系统。该章首先讨论了在设计ETL系统之前必须考虑的需求和约束,然后描述了34个与获取、清洗、一致性、发布和管理有关的子系统。
第20章:ETL系统设计与开发过程和任务
该章深入探讨了与ETL设计和开发活动有关或无关的具体技术。那些对ETL负有责任的读者都应该阅读本章。
第21章:大数据分析
最后一章主要关注大数据这一正在流行的主题。我们认为,大数据是对DW/BI系统的自然扩展。首先讨论了几种可选的结构,包括MapReduce和Hadoop,描述了这些可选系统如何与当前的DW/BI结构共存的问题。接着讨论了针对大数据的管理、结构、数据建模和数据治理的最佳实践。
Web资源
Kimball集团网站包含许多补充的维度建模内容和资源:
● 注册Kimball Design Tips可收到有关维度建模和DW/BI主题的实践指导。
● 访问目录可获得300个设计技巧和文章。
● 通过学习Kimball大学公开的和现场的课程,可获得高质量、独立于提供商的教育,并分享我们的经验和文章。
● 获得Kimball集团咨询服务以利用我们几十年积累的有关DW/BI的宝贵经验。
● 向Kimball论坛的其他维度设计参与者提问。
小结
本书的写作目标是基于作者60多年来从实际业务环境中获得的经验和来之不易的教训,为读者提供正式的维度设计和开发技术。DW/BI系统必须以业务用户的需求来驱动,如此才能真正从维度角度设计和展现。我们坚信,如果您能够接受这一前提,将会朝建立成功的DW/BI系统迈出巨大的一步。
既然知道从何开始,请开始仔细阅读本书。在第1章中将讨论DW/BI和维度建模的基本内容,确保每个人对关键术语和结构性概念具有统一的认识。
数据仓库工具箱(第3版)——维度建模权威指南(大数据应用与技术丛书) pdf下载声明
本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版