作 者:(美)金博尔(Ralph Kimball),(美)罗斯(Margy Ross) 著;王念滨,周连科,韦正现 译 定 价:69.8 出 版 社:清华大学出版社 出版日期:2015年01月01日 页 数:384 装 帧:平装 ISBN:9787302385530 ◆ 实用设计技术——有关维度和事实表的基本和不错技术
◆ 14个案例研究,涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等。
◆ 为12个案例研究提供了数据仓库总线矩阵示例
◆ 需要避免的维度建模陷阱和错误
◆ 增强的缓慢变化维度(SCD)技术类型0~类型7
◆ 用于处理参差不齐的可变深度层次和多值属性的桥接表
◆&nb;等
●第1章 数据仓库、商业智能及维度建模初步 1
●1.1 数据获取与数据分析的区别 1
●1.2 数据仓库与商业智能的目标 2
●1.3 维度建模简介 5
●1.3.1 星型模式与OLAP多维数据库 6
●1.3.2 用于度量的事实表 7
●1.3.3 用于描述环境的维度表 9
●1.3.4 星型模式中维度与事实的连接 11
●1.4 Kimball的DW/BI架构 14
●1.4.1 操作型源系统 14
●1.4.2 获取—转换—加载(ETL)系统 14
●1.4.3 用于支持商业智能决策的展现区 16
●1.4.4 商业智能应用 17
●1.4.5 以餐厅为例描述Kimball架构 17
●1.5 其他DW/BI架构 19
●1.5.1 独立数据集市架构 19
●1.5.2 辐射状企业信息工厂Inmon架构 20
●1.5.3 混合辐射状架构与Kimball架构 22
●1.6 维度建模神话 22
●1.6.1 神话1:维度模型仅包含汇总数据 23
●部分目录
内容简介
随着The Data Warehouse Toolkit(1996)靠前版的出版发行,Ralph Kimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度建模技术、模式和很好实践的资源。
这本《数据仓库工具箱(第3版)——维度建模指南》汇集了到目前为止很全面的维度建模技术。本书采用新的思路和很好实践对上一版本进行了全面修订,给出了设计维度模型的全面指南,既适合数据仓库新手,也适合经验丰富的专业人员。
本书涉及的所有技术都基于作者实际从事DW/BI的设计经验,通过实际案例加以描述。
(美)金博尔(Ralph Kimball),(美)罗斯(Margy Ross) 著;王念滨,周连科,韦正现 译 Ralph Kimball博士自1982年以来,一直是数据仓库和商业智能行业的思想开拓者。自1996年以来,The Data Warehouse Toolkit系列书籍一直是很受读者欢迎的畅销书。
Margy Ross是Kimball集团总裁,她与Ralph Kimball合作撰写了5本工具箱系列书籍。她关注数据仓库和商业智能已有30多年的历史。
使用事实表代理键作为父/子模式中的父节点。一个事实表包含的行是另外粒度更细的事实表的父指针。父表中的事实表代理键也会暴露在子表中。使用事实表代理键而不使用自然父键与在维度表中使用代理键一样都存在争议。自然键是混乱且无法预测的,然而代理键是明确的整数并由ETL系统分配,而不是由源系统分配。当然,除了包括父事实表的代理键外,低粒度事实表包括父节点的维度外键,因此子事实表也包括父维度的外键,因此子事实不必遍历父事实表的代理键就可以被分片或分块。我们将在第4章中讨论,您不应当直接将事实表与其他事实表连接。
3.8 抵制规范化的冲动
本节将直接面对几个诱使具有规范化建模背景的建模者采用规范化建模的自然冲动。我们一直在有意识地打破传统等
数据仓库之基石:现代数据架构的构建与优化 在这信息爆炸、数据驱动决策日益成为企业核心竞争力的时代,如何有效地管理、整合、分析海量数据,并从中提炼出有价值的商业洞察,已成为衡量企业成功与否的关键指标。本书并非聚焦于某一特定工具的深度技术解析,而是致力于为读者构建一个全面、系统的现代数据架构认知框架。它将带领您深入理解数据仓库在现代企业信息系统中的核心地位,以及支撑起这一核心的各个关键组件与设计理念。 第一部分:战略层面——数据仓库的定位与规划 在着手技术细节之前,理解数据仓库的战略意义至关重要。本书将首先剖析企业为何需要构建数据仓库,它如何解决传统事务处理系统(OLTP)在分析需求上的局限性。我们将探讨数据仓库在支持商业智能(BI)、数据分析、预测建模、风险管理等方面的关键作用,以及它如何为企业提供一致、准确、可信的数据源,从而驱动更明智的业务决策。 数据仓库的战略价值: 深入解析数据仓库如何从“数据孤岛”走向“数据整合”,实现跨部门、跨系统数据的统一视图。我们将讨论其在提升运营效率、优化客户体验、识别市场机遇、应对竞争挑战等方面的实际价值,并辅以丰富的案例分析,说明数据仓库如何成为企业实现数字化转型和智能升级的基石。 需求分析与目标设定: 构建成功的 数据仓库并非一蹴而就,其前提是对业务需求的透彻理解。本书将引导读者掌握科学的需求分析方法,包括与业务部门的有效沟通、识别关键业务指标(KPIs)、理解不同用户群体的分析需求等。在此基础上,我们将讨论如何设定清晰、可衡量的项目目标,并将其转化为数据仓库的架构设计蓝图。 数据治理与数据质量: 数据仓库的生命力在于数据的质量。本书将详细阐述数据治理的重要性,包括数据标准、数据字典、元数据管理、数据血缘追踪等概念。我们还将深入探讨如何建立有效的数据质量管理流程,从数据采集、清洗、转换到存储和访问的各个环节,确保数据的准确性、完整性、一致性和时效性,为后续的分析奠定坚实基础。 技术选型考量: 在现代数据架构中,数据仓库扮演着核心角色,但并非孤立存在。本书将宏观地介绍当前主流的数据技术生态,包括关系型数据库、MPP(大规模并行处理)数据库、云数据仓库、数据湖、数据湖仓一体等。我们不会深入讲解具体工具的使用,而是聚焦于在进行技术选型时需要考量的关键因素,如数据量、数据类型、查询复杂度、性能要求、成本预算、可扩展性、安全合规性等,帮助读者理解不同技术之间的协同关系,并做出符合自身需求的战略性决策。 第二部分:设计层面——构建高效可靠的数据仓库模型 模型是数据仓库的骨架,直接影响着数据的组织方式、查询效率和可维护性。本部分将重点探讨数据仓库建模的核心原则和实践。 维度建模基础: 维度建模(Dimensional Modeling)是构建数据仓库事实表和维度表的主流方法。本书将详细讲解维度建模的核心概念,包括事实(Facts)、维度(Dimensions)、度量(Measures)、粒度(Granularity)等。我们将深入剖析两种最常见的维度模型设计范式:星型模型(Star Schema)和雪花模型(Snowflake Schema),分析它们的优缺点,以及在不同场景下的适用性。 事实表设计: 事实表是数据仓库的核心,它记录了业务过程的度量值。本书将指导读者如何识别业务过程,确定事实表的粒度,选择合适的度量,并深入讲解不同类型的事实表,如事务事实表(Transactional Fact Tables)、周期快照事实表(Periodic Snapshot Fact Tables)、累积快照事实表(Accumulating Snapshot Fact Tables)等,以及它们在描述不同业务场景时的应用。 维度表设计: 维度表提供了事实数据的上下文信息。我们将详细讲解如何设计维度表,包括单值维度(Degenerate Dimensions)、垃圾维度(Junk Dimensions)、缓慢变化维度(Slowly Changing Dimensions, SCDs)等。特别是对于SCDs,我们将深入探讨不同类型的SCDs(Type 0-7),并分析其实现原理和在数据演变场景下的应用,例如如何追踪客户地址的变化、产品分类的调整等。 数据仓库架构模式: 除了传统的维度建模,本书还将介绍一些更高级的数据仓库架构模式,如数据调理区域(Staging Area)、数据仓库(Data Warehouse)、数据集市(Data Marts)、操作型数据存储(Operational Data Store, ODS)等。我们将探讨不同区域之间的关系和数据流转,以及如何根据企业的分析需求构建多层次的数据仓库架构。 ETL/ELT流程设计: 数据从源系统流入数据仓库的过程是ETL(Extract, Transform, Load)或ELT(Extract, Load, Transform)流程。本书将从设计层面探讨ETL/ELT流程的关键环节,包括数据抽取策略、数据清洗与转换规则、数据加载方法、错误处理机制、调度与监控等。我们将强调ETL/ELT流程的可读性、可维护性和性能优化。 第三部分:实施层面——数据仓库的建设与集成 数据仓库的建设是一个系统工程,涉及技术实现、性能优化、安全管理等多个方面。 数据集成技术概览: 本部分将概览数据集成所涉及的关键技术和方法,例如API集成、消息队列、文件传输、数据库链接等。我们将讨论不同集成方式的适用场景和优缺点,以及如何构建一个健壮、可扩展的数据集成平台。 性能优化策略: 高效的查询性能是数据仓库成功的关键。本书将从多个维度探讨性能优化策略,包括数据库索引的设计与优化、分区技术、物化视图、查询优化器的工作原理、合理的SQL编写技巧、缓存机制等。我们还将讨论如何在数据加载过程中进行性能调优,以缩短ETL/ELT的处理时间。 数据仓库的安全与合规: 数据安全是重中之重。我们将深入探讨数据仓库的安全控制措施,包括访问控制、数据加密、审计日志、数据脱敏等。同时,我们也会提及数据仓库在满足GDPR、CCPA等数据隐私法规方面需要考虑的因素。 元数据管理的重要性: 元数据是关于数据的数据,它对于理解、管理和使用数据仓库至关重要。本书将强调建立有效的元数据管理体系,包括技术元数据(如表结构、字段定义)、业务元数据(如业务术语、KPI定义)和操作元数据(如ETL作业日志、数据血缘)。 部署与运维考量: 成功的部署和有效的运维是数据仓库持续发挥价值的保障。本书将探讨数据仓库的部署策略,包括环境规划、版本控制、回滚计划等。在运维方面,我们将讨论监控告警机制、性能调优、容量规划、备份恢复、灾难恢复等关键议题。 第四部分:未来趋势与高级主题 数据技术日新月异,数据仓库也在不断演进。本部分将展望未来,探讨数据仓库在新的技术浪潮中的发展方向。 云原生数据仓库: 随着云计算的普及,云原生数据仓库正成为主流。本书将介绍云原生数据仓库的优势,如弹性伸缩、按需付费、托管服务等,并讨论其在构建现代数据平台中的作用。 数据湖与数据湖仓一体: 数据湖提供了一个存储各种原始数据的统一场所,而数据湖仓一体则试图结合数据湖的灵活性和数据仓库的结构化优势。本书将分析这些新范式的出现及其对传统数据仓库概念的影响,以及它们如何协同工作以支持更广泛的数据分析场景。 实时数据处理与流式分析: 业务决策越来越依赖于实时信息。本书将简要介绍实时数据处理技术(如流处理引擎)如何与数据仓库集成,实现近乎实时的报表和分析。 人工智能与机器学习在数据仓库中的应用: AI和ML正在改变数据分析的方式。本书将探讨如何利用AI/ML技术来增强数据仓库的功能,例如自动化数据质量检测、智能数据探索、预测性分析等。 本书旨在为读者提供一个关于现代数据仓库构建与优化的全面视角,从战略规划、模型设计到实施部署,再到未来发展趋势。它不是一本关于特定工具操作的手册,而是希望帮助您理解构建高效、可扩展、可信赖的数据仓库系统所需要具备的核心知识和原则,从而在数据驱动的时代,真正释放数据的价值。