YL6894 9787302469803 9787115333834
第1章 数据仓库简介
1.1 什么是数据仓库 1
1.1.1 数据仓库的定义 1
1.1.2 建立数据仓库的原因 3
1.2 操作型与分析型 5
1.2.1 操作型 5
1.2.2 分析型 8
1.2.3 操作型和分析型对比 9
1.3 数据仓库架构 10
1.3.1 基本架构 10
1.3.2 主要数据仓库架构 12
1.3.3 操作数据存储 16
1.4 抽取-转换-装载 17
1.4.1 数据抽取 17
1.4.2 数据转换 19
1.4.3 数据装载 20
1.4.4 开发ETL的方法 21
1.4.5 常见ETL工具 21
1.5 数据仓库需求 22
1.5.1 基本需求 22
1.5.2 数据需求 23
1.6 小结 24
第2章 数据仓库设计基础
2.1 关系数据模型 25
2.1.1 关系数据模型中的结构 25
2.1.2 关系完整性 28
2.1.3 规范化 30
2.1.4 关系数据模型与数据仓库 33
2.2 维度数据模型 34
2.2.1 维度数据模型建模过程 35
2.2.2 维度规范化 36
2.2.3 维度数据模型的特点 37
2.2.4 星型模式 38
2.2.5 雪花模式 40
2.3 Data Vault模型 42
2.3.1 Data Vault模型简介 42
2.3.2 Data Vault模型的组成部分 43
2.3.3 Data Vault模型的特点 44
2.3.4 Data Vault模型的构建 44
2.3.5 Data Vault模型实例 46
2.4 数据集市 49
2.4.1 数据集市的概念 50
2.4.2 数据集市与数据仓库的区别 50
2.4.3 数据集市设计 50
2.5 数据仓库实施步骤 51
2.6 小结 54
第3章 Hadoop生态圈与数据仓库
3.1 大数据定义 55
3.2 Hadoop简介 56
3.2.1 Hadoop的构成 57
3.2.2 Hadoop的主要特点 58
3.2.3 Hadoop架构 58
3.3 Hadoop基本组件 59
3.3.1 HDFS 60
3.3.2 MapReduce 65
3.3.3 YARN 72
3.4 Hadoop生态圈的其他组件 77
3.5 Hadoop与数据仓库 81
3.5.1 关系数据库的可扩展性瓶颈 82
3.5.2 CAP理论 84
3.5.3 Hadoop数据仓库工具 85
3.6 小结 88
第4章 安装Hadoop
4.1 Hadoop主要发行版本 89
4.1.1 Cloudera Distribution for Hadoop(CDH) 89
4.1.2 Hortonworks Data Platform(HDP) 90
4.1.3 MapR Hadoop 90
4.2 安装Apache Hadoop 91
4.2.1 安装环境 91
4.2.2 安装前准备 92
4.2.3 安装配置Hadoop 93
4.2.4 安装后配置 97
4.2.5 初始化及运行 97
4.3 配置HDFS Federation 99
4.4 离线安装CDH及其所需的服务 104
4.4.1 CDH安装概述 104
4.4.2 安装环境 106
4.4.3 安装配置 106
4.4.4 Cloudera Manager许可证管理 114
4.5 小结 115.........
《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件上的大数据集合。全书通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,*终演示Hive如何在Hadoop生态进行工作。
《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop的数据库管理员阅读使用。
>
第1章 基础知识
1.1 Hadoop和MapReduce综述
1.2 Hadoop生态中的Hive
1.2.1 Pig
1.2.2 HBase
1.2.3 Cascading、Crunch及其他
1.3 Java和Hive:词频统计算法
1.4 后续事情
第2章 基础操作
2.1 安装预先配置好的虚拟机
2.2 安装详细步骤
2.2.1 装Java
2.2.2 安装Hadoop
2.2.3 本地模式、伪分布式模式和分布式模式
2.2.4 测试Hadoop
2.2.5 安装Hive
2.3 Hive内部是什么
2.4 启动Hive
2.5 配置Hadoop环境
2.5.1 本地模式配置
2.5.2 分布式模式和伪分布式模式配置
2.5.3 使用JDBC连接元数据
2.6 Hive命令
2.7 命令行界面
2.7.1 CLI 选项
2.7.2 变量和属性
2.7.3 Hive中“一次使用”命令
2.7.4 从文件中执行Hive查询
2.7.5 hiverc文件
2.7.6 使用Hive CLI的更多介绍
2.7.7 查看操作命令历史
2.7.8 执行shell命令
2.7.9 在Hive内使用Hadoop的dfs命令
2.7.10 Hive脚本中如何进行注释
2.7.11 显示字段名称
第3章 数据类型和文件格式
3.1 基本数据类型
3.2 集合数据类型
3.3 文本文件数据编码
3.4 读时模式
第4章 HiveQL:数据定义
4.1 Hive中的数据库
4.2 修改数据库
4.3 创建表
4.3.1 管理表
4.3.2 外部表
4.4 分区表、管理表
4.4.1 外部分区表
4.4.2 自定义表的存储格式
4.5 删除表
4.6 修改表
4.6.1 表重命名
4.6.2 增加、修改和删除表分区
4.6.3 修改列信息
4.6.4 增加列
4.6.5 删除或者替换列
4.6.6 修改表属性
4.6.7 修改存储属性
4.6.8 众多的修改表语句
第5章 HiveQL:数据操作
5.1 向管理表中装载数据
5.2 通过查询语句向表中插入数据
5.3 单个查询语句中创建表并加载数据
5.4 导出数据
第6章 HiveQL:查询
6.1 SELECT…FROM语句
6.1.1 使用正则表达式来指定列
6.1.2 使用列值进行计算
6.1.3 算术运算符
6.1.4 使用函数
6.1.5 LIMIT语句
6.1.6 列别名
6.1.7 嵌套SELECT语句
6.1.8 CASE…WHEN…THEN 句式
6.1.9 什么情况下Hive可以避免进行MapReduce
6.2 WHERE语句
6.2.1 谓词操作符
6.2.2 关于浮点数比较
6.2.3 LIKE和RLIKE
6.3 GROUP BY 语句
6.4 JOIN语句
6.4.1 INNER JOIN
6.4.2 JOIN优化
6.4.3 LEFT OUTER JOIN
6.4.4 OUTER JOIN
6.4.5 RIGHT OUTER JOIN
6.4.6 FULL OUTER JOIN
6.4.7 LEFT SEMI-JOIN
6.4.8 笛卡尔积JOIN
6.4.9 map-side JOIN
6.5 ORDER BY和SORT BY
6.6 含有SORT BY 的DISTRIBUTE BY
6.7 CLUSTER BY
6.8 类型转换
6.9 抽样查询
6.9.1 数据块抽样
6.9.2 分桶表的输入裁剪
6.10 UNION ALL ..........
作为一名渴望提升技术能力的数据分析师,我一直在寻找能够帮助我从海量数据中挖掘价值的书籍。《Hadoop构建数据仓库实践》这本书,它为我打开了一扇通往大数据世界的大门。它并没有将Hadoop作为一个独立的工具来介绍,而是着眼于如何利用Hadoop来构建一个真正有价值的数据仓库,这恰恰是我最需要解决的问题。书中关于数据仓库的生命周期管理、不同类型数据的存储策略、以及如何进行高效的数据集成和ETL流程设计,都给我留下了深刻的印象。它让我明白,构建数据仓库不仅仅是技术的堆砌,更需要深入的业务理解和合理的设计。而《Hive编程指南》这本书,则是我在实践中不可或缺的伙伴。Hive作为Hadoop上最常用的数据查询和分析工具,这本书对其进行了详尽的讲解。从Hive的基本查询语法,到复杂的数据处理技巧,再到性能优化的方法,都覆盖得非常全面。我特别喜欢书中关于如何编写高效HiveQL的建议,这对于处理PB级别的数据来说至关重要。这两本书的结合,让我不仅理解了大数据仓库的宏观设计,也掌握了在实际操作中处理和分析数据的具体方法。
评分说实话,我刚拿到这套书的时候,觉得《Hive编程指南》可能只是《Hadoop构建数据仓库实践》的补充,但读完之后,我才意识到它简直是一颗隐藏的宝石!这本书对于想深入掌握Hive这门大数据查询语言的人来说,绝对是必不可少的。它从Hive的基本语法、数据类型讲起,一直到复杂的数据处理、窗口函数、UDF的开发,几乎涵盖了Hive的所有重要特性。我特别喜欢它对SQL和HiveQL的对比分析,帮助我理解了Hive的独特之处,以及如何将SQL的思维方式迁移到Hive中。书中大量的实际案例,让我能够立刻上手,尝试不同的查询语句,解决实际数据分析问题。而且,它还深入讲解了Hive的优化技巧,比如谓词下推、分区、分桶等,这些对于提升查询效率至关重要。在工作中,我经常需要从Hadoop集群中提取数据进行分析,而Hive就是我们最常用的工具。这本书让我对Hive的理解上升到了一个新的层次,不仅能写出基本的查询,还能写出高效、优化的查询,大大提升了我的工作效率。可以说,这本书让我彻底摆脱了“只会写简单SQL”的阶段,真正成为了一个Hive高手!
评分这套书简直是为我量身定做的!最近公司正在大力推进大数据项目,我之前的基础比较薄弱,一直想找一套既能讲解原理又能指导实践的书籍。当我在书店看到这套《Hadoop构建数据仓库实践》和《Hive编程指南》的时候,简直是眼睛一亮!《Hadoop构建数据仓库实践》这本书,我翻了几页就爱上了。它不像有些书那样干巴巴地介绍概念,而是非常注重实际操作,从Hadoop的基础架构到数据仓库的搭建,一步步都讲得非常清楚。特别是它里面关于HDFS、MapReduce、YARN的讲解,结合了大量的图示和代码示例,让我这个初学者也能很快理解那些复杂的概念。而且,书中还详细介绍了如何设计和构建一个典型的大数据仓库,包括数据建模、ETL流程、以及如何利用Hadoop生态系统中的各种工具来实现这些目标。最让我惊喜的是,它还涉及了一些高级话题,比如数据治理、数据安全等,这些都是在实际工作中非常重要但又容易被忽略的方面。整本书的逻辑非常流畅,从宏观到微观,从理论到实践,层层递进,读起来一点也不费力。我个人感觉,有了这本书,我在搭建和维护公司的大数据平台方面,信心倍增!
评分坦白说,我之前对大数据领域的认知主要停留在一些零散的概念上,比如MapReduce、HDFS,但总感觉缺乏一个系统的认识。《Hadoop构建数据仓库实践》这本书,它真的帮我构建起了一个完整的大数据知识框架。我喜欢它从Hadoop的核心组件开始,循序渐进地介绍其工作原理,而且不仅仅是理论,还穿插了大量的实际配置和操作指导。最让我印象深刻的是,它详细阐述了如何基于Hadoop来构建一个真正可用、可扩展的数据仓库,这正是我们团队目前面临的最大挑战。书中关于数据建模、ETL流程的设计思路,以及如何利用Hadoop生态系统中的其他工具(如Sqoop、Flume、Oozie等)来支撑整个数据仓库的运作,都给我带来了很多启发。而《Hive编程指南》则是我在实际操作中的得力助手。Hive作为Hadoop上最常用的数据查询工具,这本书对其进行了全方位的解析,从基础语法到高级特性,再到性能优化,都讲解得非常到位。我尤其喜欢书中关于窗口函数和用户定义函数(UDF)的讲解,这让我能够处理更复杂的数据分析场景。这两本书的结合,为我深入理解和实践大数据技术提供了坚实的基础。
评分一直以来,我对数据库管理和数据仓库的概念都有些模糊,总觉得是高深莫测的学问。直到我开始阅读《Hadoop构建数据仓库实践》和《Hive编程指南》这套书,我才茅塞顿开!《Hadoop构建数据仓库实践》这本书,它不仅仅是关于Hadoop本身,更重要的是它将Hadoop与数据仓库的概念紧密结合起来,让我看到了如何利用Hadoop这个强大的平台来构建现代化、可扩展的数据仓库。书中对数据仓库的架构设计、数据生命周期管理、以及如何集成各种数据源的讲解,都非常系统和深入。我特别欣赏它对数据仓库在企业中的作用和价值的阐述,让我理解了为什么构建一个高效的数据仓库如此重要。而《Hive编程指南》则为我提供了一把解锁数据仓库中海量数据的钥匙。通过学习Hive,我学会了如何用SQL风格的语言去查询和分析存储在Hadoop中的各种结构化和半结构化数据。这本书的实践性非常强,通过大量的代码示例,我不仅学会了如何编写Hive查询,还学会了如何进行数据清洗、转换和聚合。这两本书配合起来,形成了一个完整的知识体系,让我从零开始,一步步掌握了构建和管理大数据仓库的核心技能。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有