YL6895 9787302469803 9787302385530
第1章 数据仓库简介
1.1 什么是数据仓库 1
1.1.1 数据仓库的定义 1
1.1.2 建立数据仓库的原因 3
1.2 操作型系统与分析型系统 5
1.2.1 操作型系统 5
1.2.2 分析型系统 8
1.2.3 操作型系统和分析型系统对比 9
1.3 数据仓库架构 10
1.3.1 基本架构 10
1.3.2 主要数据仓库架构 12
1.3.3 操作数据存储 16
1.4 抽取-转换-装载 17
1.4.1 数据抽取 17
1.4.2 数据转换 19
1.4.3 数据装载 20
1.4.4 开发ETL系统的方法 21
1.4.5 常见ETL工具 21
1.5 数据仓库需求 22
1.5.1 基本需求 22
1.5.2 数据需求 23
1.6 小结 24
第2章 数据仓库设计基础
2.1 关系数据模型 25
2.1.1 关系数据模型中的结构 25
2.1.2 关系完整性 28
2.1.3 规范化 30
2.1.4 关系数据模型与数据仓库 33
2.2 维度数据模型 34
2.2.1 维度数据模型建模过程 35
2.2.2 维度规范化 36
2.2.3 维度数据模型的特点 37
2.2.4 星型模式 38
2.2.5 雪花模式 40
2.3 Data Vault模型 42
2.3.1 Data Vault模型简介 42
2.3.2 Data Vault模型的组成部分 43
2.3.3 Data Vault模型的特点 44
2.3.4 Data Vault模型的构建 44
2.3.5 Data Vault模型实例 46
2.4 数据集市 49
2.4.1 数据集市的概念 50
2.4.2 数据集市与数据仓库的区别 50
2.4.3 数据集市设计 50
2.5 数据仓库实施步骤 51
2.6 小结 54
第3章 Hadoop生态圈与数据仓库
3.1 大数据定义 55
3.2 Hadoop简介 56
3.2.1 Hadoop的构成 57
3.2.2 Hadoop的主要特点 58
3.2.3 Hadoop架构 58
3.3 Hadoop基本组件 59
3.3.1 HDFS 60
3.3.2 MapReduce 65
3.3.3 YARN 72
3.4 Hadoop生态圈的其他组件 77
3.5 Hadoop与数据仓库 81
3.5.1 关系数据库的可扩展性瓶颈 82
3.5.2 CAP理论 84
3.5.3 Hadoop数据仓库工具 85
3.6 小结 88
第4章 安装Hadoop
4.1 Hadoop主要发行版本 89
4.1.1 Cloudera Distribution for Hadoop(CDH) 89
4.1.2 Hortonworks Data Platform(HDP) 90
4.1.3 MapR Hadoop 90
4.2 安装Apache Hadoop 91
4.2.1 安装环境 91
4.2.2 安装前准备 92
4.2.3 安装配置Hadoop 93
4.2.4 安装后配置 97
4.2.5 初始化及运行 97
4.3 配置HDFS Federation 99
4.4 离线安装CDH及其所需的服务 104
4.4.1 CDH安装概述 104
4.4.2 安装环境 106
4.4.3 安装配置 106
4.4.4 Cloudera Manager许可证管理 114
4.5 小结 115.........
第1章 数据仓库、商业智能及维度建模初步
1.1 数据获取与数据分析的区别
1.2 数据仓库与商业智能的目标
1.3 维度建模简介
1.3.1 星型模式与OLAP多维数据库
1.3.2 用于度量的事实表
1.3.3 用于描述环境的维度表
1.3.4 星型模式中维度与事实的连接
1.4 Kimball的DW/BI架构
1.4.1 操作型源系统
1.4.2 获取.转换_加口载(ETL)系统
1.4.3 用于支持商业智能决策的展现区
1.4.4 商业智能应用
1.4.5 以餐厅为例描述Kimball架构
1.5 其他DW/BI架构
1.5.1 独立数据集市架构]
1.5.2 辐射状企业信息工厂Inmon架构
1.5.3 混合辐射状架构与Kimball架构
1.6 维度建模神话
1.6.1 神话1:维度模型仅包含汇总数据
1.6.2 神话2:维度模型是部门级而不是企业级的
1.6.3 神话3:维度模型是不可扩展的
1.6.4 神话4:维度模型仅用于预测
1.6.5 神话5:维度模型不能被集成
1.7 考虑使用维度模型的
更多理由
1.8 本章小结
第2章 Kimball维度建模技术概述
2.1 基本概念
2.1.1 收集业务需求与数据实现
2.1.2 协作维度建模研讨
2.1.3 4步骤维度设计过程
2.1.4 业务过程
2.1.5 粒度
2.1.6 描述环境的维度
2.1.7 用于度量的事实
2.1.8 星型模式与OLAP多维数据库
2.1.9 方便地扩展到维度模型
2.2 事实表技术基础
2.2.1 事实表结构
2.2.2 可加、半可加、不可加事实
2.2.3 事实表中的空值
2.2.4 一致性事实
2.2.5 事务事实表
2.2.6 周期快照事实表
2.2.7 累积快照事实表
2.2.8 无事实的事实表
2.2.9 聚集事实表或OLAP多维数据库
2.2.1 0合并事实表
2.3 维度表技术基础
2.3.1 维度表结构
2.3.2 维度代理键
2.3.3 自然键、持久键和**自然键
2.3.4 下钻
2.3.5 退化维度
2.3.6 非规范化扁平维度
2.3.7 多层次维度
2.3.8 文档属性的标识与指示器
2.3.9 维度表中的空值属性
2.3.10 日历日期维度
2.3.11 扮演角色的维度
2.3.12 杂项维度
2.3.13 雪花维度
2.3.14 支架维度
2.4 使用一致性维度集成
2.4.1 一致性维度
2.4.2 缩减维度
2.4.3 跨表钻取
2.4.4 价值链
2.4.5 企业数据仓库总线架构
2.4.6 企业数据仓库总线矩阵
2.4.7 总线矩阵实现细节
2.4.8 机会/利益相关方矩阵
2.5 处理缓慢变化维度属性
2.5.1 类型0:原样保留
2.5.2 类型1:重写
2.5.3 类型2:增加新行
2.5.4 类型3:增加新属性
2.5.5 类型4:增加微型维度
2.5.6 类型5:增加微型维度及类型1支架
2.5.7 类型6:增加类型1属性到类型2维度
2.5.8 类型7:双类型l和类型2维度
2.6 处理维度层次关系
2.6.1 固定深度位置的层次
2.6.2 轻微参差不齐/可变深度层次
2.6.3 具有层次桥接表的参差不齐/可变深度层次
2.6.4 具有路径字符属性的可变深度层次
2.7 **事实表技术
2.7.1 事实表代理键
2.7.2 蜈蚣事实表
2.7.3 属性或事实的数字值
2.7.4 日志/持续时间事实
2.7.5 头/行事实表
2.7.6 分配的事实
2.7.7 利用分配建立利润与损失事实表
2.7.8 多种货币事实
2.7.9 多种度量事实单位
2.7.1 0年.日事实
2.7.1 1多遍SQL以避免事实表间的连接
2.7.1 2针对事实表的时间跟踪1
2.7.1 3迟到的事实
2.8 **维度技术
2.8.1 维度表连接
2.8.2 多值维度与桥接表
2.8.3 随时间变化的多值桥接表
2.8.4 标签的时间序列行为
2.8.5 行为研究分组
2.8.6 聚集事实作为维度属性
2.8.7 动态值范围
2.8.8 文本注释维度
2.8.9 多时区
2.8.10 度量类型维度.........
这次买的书是《包邮 Hadoop构建数据仓库实践+数据仓库工具箱 第3版》,收到书的时候真的挺开心的,尤其是价格也合适,还包邮,感觉性价比挺高的。拆开快递,看到书本的装帧设计,挺扎实的,纸张的质量也还不错,摸起来有质感,字迹印刷清晰,阅读起来眼睛不会觉得累。我平时比较喜欢研究一些技术方面的东西,对数据仓库和大数据技术一直都很有兴趣,这次这两本书都是我一直想看的,尤其是《Hadoop构建数据仓库实践》,感觉光是书名就很有吸引力,应该能学到很多实际操作的东西,对如何用Hadoop来构建一个完整的数据仓库有更深入的了解,比如数据的采集、存储、处理和分析的全流程,以及相关的架构设计和性能优化。而《数据仓库工具箱 第3版》更是经典,数据仓库领域的“圣经”级读物,听说它系统地介绍了数据仓库的建模、设计、ETL流程以及BI应用等方面的内容,理论知识非常扎实,是构建健壮、高效数据仓库的基石。这两本书搭配起来看,感觉就像是理论与实践的完美结合,一本侧重于工具和平台的使用,另一本侧重于方法论和设计理念,希望能通过它们,真正掌握构建和管理数据仓库的核心技能,解决工作中遇到的实际问题,提升数据分析和挖掘的能力。
评分收到这两本书,我真的迫不及待地翻看了起来。《Hadoop构建数据仓库实践》这本书,给我的第一印象是内容非常接地气,从Hadoop的基础概念讲起,逐步深入到如何利用Hadoop生态系统中的各种组件,比如HDFS、MapReduce、Hive、HBase等,来构建一个完整的数据仓库。书中应该会有很多实际案例和代码示例,这对于我这种喜欢动手实践的人来说,简直是福音。我特别期待书中关于数据建模、ETL流程设计、数据质量管理以及性能调优的部分,这些都是构建一个高效、稳定数据仓库的关键。而且,Hadoop技术发展很快,了解最新的实践方法非常有必要。同时,《数据仓库工具箱 第3版》这本书,作为一本经典的参考书,我想它会提供非常系统和全面的理论指导。数据仓库的生命周期管理、维度建模的各种技巧、事实表的设计原则,以及与BI工具的集成等等,都应该会有详尽的讲解。这本书就像一本武功秘籍,能够帮助我理清思路,建立起科学的数据仓库设计思维,避免走弯路。我希望通过阅读这两本书,能够从零开始,建立起一个符合业务需求、性能优越的数据仓库,并且掌握如何让数据仓库发挥出最大的价值,支持更深层次的商业智能分析。
评分这两本书的组合,对我来说简直是如虎添翼。《Hadoop构建数据仓库实践》这本书,我期望它能够带我深入了解Hadoop生态系统在数据仓库建设中的具体应用。比如,书中会不会详细介绍如何利用HDFS作为数据存储层,MapReduce或Spark作为计算引擎,Hive作为数据仓库的查询接口,以及HBase作为实时数据访问的解决方案。我非常希望能学习到如何在实际环境中部署和管理Hadoop集群,以及如何进行高效的数据ETL过程,将来自不同源系统的数据整合到Hadoop环境中。书中关于性能调优和故障排除的经验分享,也将是我非常看重的部分。另一方面,《数据仓库工具箱 第3版》这本书,作为数据仓库领域的经典之作,我相信它会为我提供扎实的理论基础和方法论指导。从数据仓库的生命周期管理、业务流程分析,到维度建模的原则和实践,再到数据质量的保障和BI应用的集成,我希望能够通过这本书,系统地掌握构建一个健壮、易于理解和维护的数据仓库的设计思想。这两本书的结合,让我相信我能构建出既能处理海量数据,又符合业务需求的现代化数据仓库。
评分这次购入的这两本关于数据仓库和Hadoop的书籍,让我对未来的学习充满了期待。《Hadoop构建数据仓库实践》这本书,从它的名字就可以看出,它会聚焦于如何利用Hadoop这个强大的平台来构建数据仓库。我猜书中会有大量的案例分析和实操指导,从Hadoop集群的搭建,到数据加载、转换、存储,再到使用Hive、Spark等工具进行数据分析,应该都有非常详细的步骤讲解。我特别关注书中关于如何处理结构化、半结构化和非结构化数据,以及如何进行数据治理和元数据管理的部分。这些都是在实际项目中非常重要的环节,能够帮助我更好地理解和应用Hadoop技术来解决数据仓库面临的挑战。而《数据仓库工具箱 第3版》,作为一本数据仓库领域的权威著作,我想它会为我提供一套完整的理论框架和实践方法。书中关于数据仓库的架构设计、维度建模的最佳实践、ETL流程的优化策略,以及如何利用BI工具从数据仓库中提取洞察等内容,都将是我学习的重点。我相信这两本书能够相互印证,让我对数据仓库的理解更加深入和全面,无论是理论知识还是实践操作,都能得到极大的提升,从而更好地服务于我的工作。
评分这两本书的组合,真的是让我看到了大数据时代下数据仓库建设的未来方向。《Hadoop构建数据仓库实践》这本书,看目录就感觉内容很丰富,应该涵盖了从数据采集、预处理、存储,到数据分析、可视化等各个环节。我尤其对书中关于如何利用Hadoop的分布式计算能力来处理海量数据,以及如何选择合适的Hadoop组件来实现数据仓库的各个功能的部分非常感兴趣。比如,如何用Hive进行SQL查询,如何用HBase存储实时数据,以及如何利用Spark来加速数据处理等,这些都是我急切想了解的。感觉这本书会教我如何“落地”,如何将理论知识转化为实际的生产力。而《数据仓库工具箱 第3版》这本书,则更像是给我打下了坚实的理论基础。数据仓库的设计原则、维度建模的方法论、ETL的完整流程,以及如何衡量数据仓库的性能和质量,这些都是非常重要的知识点。我相信通过这本书的学习,我能够更深刻地理解数据仓库的本质,掌握构建优秀数据仓库的设计理念,从而在实际工作中做出更明智的决策,设计出更易于维护、扩展性更强的数据仓库系统,为企业提供更可靠的数据支持。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有