包邮Spark SQL大数据实例开发教程+入门与实践指南数据存储管理分析书籍 pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

王家林，纪涵，靖晓文，赵政达著

图书标签:

Spark SQL
大数据
数据分析
数据存储
数据管理
实例开发
入门
实践
SQL
书籍

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静思书屋

book.idnshop.cc

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

店铺：旷氏文豪图书专营店

出版社：机械工业

ISBN：9787111591979

商品编码：26564402545

出版时间：2018-04-01

具体描述

YL13848 9787111591979 9787302496700

Spark SQL大数据实例开发教程

Spark SQL是Spark生态环境中核心和基础的组件，是掌握Spark的关键所在。本书从企业级开发的角度出发，结合多个企业级应用案例，深入剖析Spark SQL。全书共分为8章，包括：认识Spark SQL、DataFrame原理与常用操作、Spark SQL操作多种数据源、Parquet列式存储、Spark SQL内置函数与窗口函数、Spark SQL UDF与UDAF、Thrift Server、Spark SQL综合应用案例。
本书可以使读者对Spark SQL有深入的理解，本书适合于Spark学习爱好者，是学习Spark SQL的入门和提高教材，也是Spark开发工程师开发过程中查阅Spark SQL的案头手册。

前言

第1章认识Spark SQL

1.1Spark SQL概述

1.1.1Spark SQL与DataFrame

1.1.2DataFrame与RDD的差异

1.1.3Spark SQL的发展历程

1.2从零起步掌握Hive

1.2.1Hive的本质是什么

1.2.2Hive安装和配置

1.2.3使用Hive分析搜索数据

1.3Spark SQL on Hive安装与配置

1.3.1安装Spark SQL

1.3.2安装MySQL

1.3.3启动Hive Metastore

1.4Spark SQL初试

1.4.1通过spark-shell来使用Spark SQL

1.4.2Spark SQL的命令终端

1.4.3Spark的Web UI

1.5本章小结

第2章DataFrame原理与常用操作

2.1DataFrame编程模型

2.2DataFrame基本操作实战

2.2.1数据准备

2.2.2启动交互式界面

2.2.3数据处理与分析

2.3通过RDD来构建DataFrame

2.4缓存表（列式存储）

2.5DataFrame API应用示例

2.6本章小结

第3章Spark SQL 操作多种数据源

3.1通用的加载/保存功能

3.1.1Spark SQL加载数据

3.1.2Spark SQL保存数据

3.1.3综合案例——电商热销商品排名

3.2Spark SQL操作Hive示例

3.3Spark SQL操作JSON数据集示例

3.4Spark SQL操作HBase示例

3.5Spark SQL操作MySQL示例

3.5.1安装并启动MySQL

3.5.2准备数据表

3.5.3操作MySQL表

3.6Spark SQL操作MongoDB示例

3.6.1安装配置MongoDB

3.6.2启动MongoDB

3.6.3准备数据

3.6.4Spark SQL操作MongoDB

3.7本章小结

第4章Parquet列式存储

4.1Parquet概述

4.1.1Parquet的基本概念

4.1.2Parquet数据列式存储格式应用举例

4.2Parquet的Block配置及数据分片

4.2.1Parquet的Block的配置

4.2.2Parquet 内部的数据分片

4.3Parquet序列化

4.3.1Spark实施序列化的目的

4.3.2Parquet两种序列化方式

4.4本章小结

第5章Spark SQL内置函数与窗口函数

5.1Spark SQL内置函数

5.1.1Spark SQL内置函数概述

5.1.2Spark SQL内置函数应用实例

5.2Spark SQL窗口函数

5.2.1Spark SQL窗口函数概述

5.2.2Spark SQL窗口函数分数查询统计案例

5.2.3Spark SQL窗口函数NBA常规赛数据统计案例

5.3本章小结

第6章Spark SQL UDF与UDAF

6.1UDF概述

6.2UDF示例

6.2.1Hobby_count函数

6.2.2Combine函数

6.2.3Str2Int函数

6.2.4Wsternstate函数

6.2.5ManyCustomers函数

6.2.6StateRegion函数

6.2.7DiscountRatio函数

6.2.8MakeStruct函数

6.2.9MyDateFilter函数

6.2.10MakeDT函数

6.3UDAF概述

6.4UDAF示例

6.4.1ScalaAggregateFunction函数

6.4.2GeometricMean函数

6.4.3CustomMean函数

6.4.4BelowThreshold函数

6.4.5YearCompare函数

6.4.6WordCount函数

6.5本章小结

第7章Thrift Server

7.1Thrift概述

7.1.1Thrift的基本概念

7.1.2Thrift的工作机制

7.1.3Thrift的运行机制

7.1.4一个简单的Thrift 实例

7.2Thrift Server的启动过程

7.2.1Thrift Sever启动详解

7.2.2HiveThriftServer2类的解析

7.3Beeline操作

7.3.1Beeline连接方式

7.3.2在Beeline中进行SQL查询操作

7.3.3通过Web控制台查看用户进行的操作

7.4Thrift Server应用示例

7.4.1示例源代码

7.4.2关键代码行解析

7.4.3测试运行

7.4.4运行结果解析

7.4.5Spark Web控制台查看运行日志

7.5本章小结

第8章Spark SQL综合应用案例

8.1综合案例实战——电商网站日志多维度数据分析

8.1.1数据准备

8.1.2数据说明

8.1.3数据创建

8.1.4数据导入

8.1.5数据测试和处理

8.2综合案例实战——电商网站搜索排名统计

8.2.1案例概述

8.2.2数据准备

8.2.3实现用户每天搜索前3名的商品排名统计

8.3本章小结

Spark SQL入门与实践指南

Spark SQL是
Spark大数据框架的一部分，支持使用标准SQL查询和HiveQL来读写数据，可用于结构化数据处理，并可以执行类似SQL的Spark数据查询，有助于开发人员更快地创建和运行Spark程序。全书分为4篇，共9章，一篇讲解了Spark
SQL 发展历史和开发环境搭建。第二篇讲解了Spark SQL 实例，使得读者掌握Spark SQL的入门操作，了解Spark
RDD、DataFrame和DataSet，并熟悉 DataFrame
各种操作。第三篇讲解了基于WiFi探针的商业大数据分析项目，实例中包含数据采集、预处理、存储、利用Spark SQL 挖掘数据，一步一步带领读者学习Spark
SQL强大的数据挖掘功能。第四篇讲解了Spark SQL
优化的知识。本书适合Spark初学者、Spark数据分析人员以及Spark程序开发人员，也适合高校和培训学校相关专业的师生教学参考。

第一部分入门篇

第1章初识Spark SQL 3

1.1 Spark SQL的前世今生 3

1.2 Spark SQL能做什么 4

第2章 Spark安装、编程环境搭建以及打包提交 6

2.1 Spark的简易安装 6

2.2 准备编写Spark应用程序的IDEA环境 10

2.3 将编写好的Spark应用程序打包成jar提交到Spark上 18

第二部分基础篇

第3章 Spark上的RDD编程 23

3.1 RDD基础 24

3.1.1 创建RDD 24

3.1.2 RDD转化操作、行动操作 24

3.1.3 惰性求值 25

3.1.4 RDD缓存概述 26

3.1.5 RDD基本编程步骤 26

3.2 RDD简单实例—wordcount 27

3.3 创建RDD 28

3.3.1 程序内部数据作为数据源 28

3.3.2 外部数据源 29

3.4 RDD操作 33

3.4.1 转化操作 34

3.4.2 行动操作 37

3.4.3 惰性求值 38

3.5 向Spark传递函数 39

3.5.1 传入匿名函数 39

3.5.2 传入静态方法和传入方法的引用 40

3.5.3 闭包的理解 41

3.5.4 关于向Spark传递函数与闭包的总结 42

3.6 常见的转化操作和行动操作 42

3.6.1 基本RDD转化操作 43

3.6.2 基本RDD行动操作 48

3.6.3 键值对RDD 52

3.6.4 不同类型RDD之间的转换 56

3.7 深入理解RDD 57

3.8 RDD 缓存、持久化 59

3.8.1 RDD缓存 59

3.8.2 RDD持久化 61

3.8.3 持久化存储等级选取策略 63

3.9 RDD checkpoint容错机制 64

第4章 Spark SQL编程入门 66

4.1 Spark SQL概述 66

4.1.1 Spark SQL是什么 66

4.1.2 Spark SQL通过什么来实现 66

4.1.3 Spark SQL 处理数据的优势 67

4.1.4 Spark SQL数据核心抽象——DataFrame 67

4.2 Spark SQL编程入门示例 69

4.2.1 程序主入口：SparkSession 69

4.2.2 创建 DataFrame 70

4.2.3 DataFrame基本操作 70

4.2.4 执行SQL查询 72

4.2.5 全局临时表 73

4.2.6 Dataset 73

4.2.7 将RDDs转化为DataFrame 75

4.2.8 用户自定义函数 78

第5章 Spark SQL的DataFrame操作大全 82

5.1 由JSON文件生成所需的DataFrame对象 82

5.2 DataFrame上的行动操作 84

5.3 DataFrame上的转化操作 91

5.3.1 where条件相关 92

5.3.2 查询指定列 94

5.3.3 思维开拓：Column的巧妙应用 99

5.3.4 limit操作 102

5.3.5 排序操作：order by和sort 103

5.3.6 group by操作 106

5.3.7 distinct、dropDuplicates去重操作 107

5.3.8 聚合操作 109

5.3.9 union合并操作 110

5.3.10 join操作 111

5.3.11 获取指定字段统计信息 114

5.3.12 获取两个DataFrame中共有的记录 116

5.3.13 获取一个DataFrame中有另一个DataFrame中没有的记录 116

5.3.14 操作字段名 117

5.3.15 处理空值列 118

第6章 Spark SQL支持的多种数据源 121

6.1 概述 121

6.1.1 通用load/save 函数 121

6.1.2 手动指定选项 123

6.1.3 在文件上直接进行SQL查询 123

6.1.4 存储模式 123

6.1.5 持久化到表 124

6.1.6 bucket、排序、分区操作 124

6.2 典型结构化数据源 125

6.2.1 Parquet 文件 125

6.2.2 JSON 数据集 129

6.2.3 Hive表 130

6.2.4 其他数据库中的数据表 133

第三部分实践篇

第7章 Spark SQL 工程实战之基于WiFi探针的商业大数据分析技术 139

7.1 功能需求 139

7.1.1 数据收集 139

7.1.2 数据清洗 140

7.1.3 客流数据分析 141

7.1.4 数据导出 142

7.2 系统架构 142

7.3 功能设计 143

7.4 数据库结构 144

7.5 本章小结 144

第8章第一个Spark SQL应用程序 145

8.1 完全分布式环境搭建 145

8.1.1 Java 环境配置 145

8.1.2 Hadoop 安装配置 146

8.1.3 Spark安装配置 149

8.2 数据清洗 150

8.3 数据处理流程 153

8.4 Spark程序远程调试 164

8.4.1 导出jar包 164

8.4.2 IDEA配置 168

8.4.3 服务端配置 170

8.5 Spark的Web界面 171

8.6 本章小结 172

第四部分优化篇

第9章让Spark程序再快一点 175

9.1 Spark执行流程 175

9.2 Spark内存简介 176

9.3 Spark的一些概念 177

9.4 Spark编程四大守则 178

9.5 Spark调优七式 183

9.6 解决数据倾斜问题 192

9.7 Spark 执行引擎 Tungsten 简介 195

9.8 Spark SQL解析引擎Catalyst 简介 197

9.9 本章小结 200

《数据驱动的世界：洞悉大数据价值，掌握现代数据分析技术》在一个信息爆炸的时代，数据已成为驱动社会进步和商业决策的核心动力。从精准营销到智能制造，从医疗健康到科学研究，大数据的力量无处不在，深刻地改变着我们的生活和工作方式。然而，海量数据的背后，隐藏着巨大的价值等待挖掘，也伴随着前所未有的挑战。如何有效地收集、存储、处理和分析这些庞杂的数据，从中提炼出有价值的洞察，已成为个人和组织在新时代保持竞争力的关键。本书旨在为您提供一套全面而深入的现代数据分析技术指南，带您穿越数据洪流，掌握驾驭大数据、释放其潜在价值的强大工具和方法。我们不聚焦于某个特定的技术框架，而是从数据分析的本质出发，构建一个完整的知识体系，帮助您理解数据从产生到应用的全过程，并熟练运用各种技术手段解决实际问题。第一部分：数据思维的基石——理解数据与分析的本质在深入技术细节之前，我们需要建立坚实的数据思维。本部分将引导您：认识大数据的时代背景与重要性：探讨数据如何从“信息的副产品”演变为“新时代的石油”，分析大数据在不同行业中的应用案例，理解其驱动创新的巨大潜力。建立正确的数据观：区分不同类型的数据（结构化、半结构化、非结构化），理解数据的生命周期（采集、存储、处理、分析、可视化、应用），以及数据质量的重要性。掌握核心的数据分析理念：学习描述性分析、诊断性分析、预测性分析和规范性分析的层级，理解数据驱动决策的逻辑，掌握提出有效分析问题的能力。了解数据分析的流程与方法论：从业务问题定义，到数据获取、数据清洗、特征工程、模型选择、模型评估，再到结果解释与落地，全方位解析一个完整的数据分析项目流程。数据伦理与隐私保护：在享受数据带来的便利的同时，深入理解数据安全、隐私保护的法规与重要性，掌握负责任地使用数据的原则。第二部分：数据处理的利器——从数据采集到存储管理海量数据的有效处理是后续分析的前提。本部分将聚焦于数据采集、清洗、转换以及高效存储的各种技术和实践：数据采集的技术与挑战：学习各种数据源的识别与接入方式，包括文件导入（CSV, JSON, XML等）、数据库连接、API接口调用、网络爬虫技术（Python Scrapy, Beautiful Soup等）等。探讨实时数据采集、批量数据采集的策略与工具。数据清洗与预处理的关键技术：掌握处理缺失值（填充、删除）、异常值检测与处理、数据类型转换、重复值识别与删除、文本数据规范化（大小写统一、去除标点符号、分词等）等核心技术。数据转换与特征工程：学习如何进行数据聚合、拆分、合并，理解特征提取、特征选择、特征编码（独热编码、标签编码等）、特征缩放等技术，为模型训练奠定良好基础。数据存储的架构与选型：深入理解关系型数据库（MySQL, PostgreSQL等）的应用场景与优化，探索NoSQL数据库（MongoDB, Redis, Cassandra等）的优势与适用领域。分布式文件系统与数据湖：学习HDFS（Hadoop Distributed File System）等分布式存储系统的原理与应用，理解数据湖的概念，以及如何构建统一的数据存储平台。数据仓库的概念与构建：掌握数据仓库的维度建模（星型模型、雪花模型）、ETL（Extract, Transform, Load）流程的设计与实现，理解OLAP（Online Analytical Processing）的概念。数据治理与数据质量管理：探讨元数据管理、数据血缘追踪、数据标准建立、数据质量监控与改进的实践方法。第三部分：数据分析的引擎——掌握核心分析技术与工具在完成数据的准备工作后，我们将进入数据分析的核心环节，学习各种强大的分析技术和工具： SQL语言精通与高级应用：深入讲解SQL的查询、过滤、聚合、连接等基本操作，并重点介绍窗口函数、公共表表达式（CTE）、存储过程等高级特性，以及在实际数据分析中的应用。 Python在数据分析中的角色：学习使用NumPy进行数值计算，Pandas进行数据处理与分析，掌握DataFrame的高效操作。统计学基础与应用：回顾描述性统计（均值、中位数、方差、标准差等）和推断性统计（假设检验、置信区间）的核心概念，并学习如何在数据分析中应用这些统计方法。探索性数据分析（EDA）：学习如何运用可视化手段（散点图、柱状图、折线图、箱线图、热力图等）来理解数据分布、识别变量间的关系、发现潜在模式。机器学习基础与实践：介绍监督学习（回归、分类）、无监督学习（聚类、降维）的基本算法原理，如线性回归、逻辑回归、决策树、K-Means等。模型评估与调优：学习如何使用准确率、召回率、F1分数、AUC等指标评估模型性能，并掌握参数调优、交叉验证等常用技术。时间序列分析：学习识别时间序列数据的趋势、季节性、周期性，掌握ARIMA、Prophet等时间序列预测模型。文本分析与自然语言处理（NLP）入门：学习文本数据的预处理、词袋模型、TF-IDF、词向量等基本概念，并了解情感分析、主题模型等应用。第四部分：数据价值的呈现——可视化与应用实践再强大的分析结果，如果不能清晰地传达给决策者，其价值将大打折扣。本部分将聚焦于数据可视化和如何将数据分析成果转化为实际业务价值：数据可视化原理与最佳实践：学习不同图表的适用场景，如何通过可视化清晰、准确地传达信息，避免误导。主流数据可视化工具的使用：介绍Tableau, Power BI, Matplotlib, Seaborn, Plotly等常用可视化工具，并通过实例演示其功能。构建交互式数据仪表盘（Dashboard）：学习如何设计和创建能够让用户自由探索数据的仪表盘，实现数据的即时洞察。商业智能（BI）应用：理解BI在企业中的作用，如何利用BI工具进行报表制作、数据分析和业务监控。数据分析在业务中的落地应用：结合实际业务场景，演示如何将数据分析结果应用于市场营销（用户画像、精准推送）、销售预测、风险控制、运营优化等方面。 A/B测试与实验设计：学习如何科学地设计和执行A/B测试，用数据验证产品或策略的有效性。构建数据驱动的文化：探讨如何在组织内部推广数据思维，鼓励基于数据的决策。本书的特色：循序渐进，体系完整：从数据思维到技术实践，再到价值应用，构建完整的知识体系，适合不同阶段的学习者。理论与实践并重：在讲解核心概念的同时，配以丰富的实例和代码片段，帮助您快速上手。技术中立，理念优先：强调对数据分析本质和通用方法的理解，而非局限于某个特定框架，让您的知识更具普适性。关注实际应用：聚焦于解决实际业务问题，让您学到的知识能够直接转化为生产力。无论您是希望转行进入数据领域的技术新人，还是渴望提升数据分析能力的业务从业者，亦或是希望构建更强大数据能力的团队领导者，本书都将是您踏上数据驱动之路的宝贵伙伴。让我们一起，用数据点亮未来！

用户评价

评分☆☆☆☆☆

作为一名对数据分析工作有着执着追求的开发者，我一直在寻找一本能够系统性地讲解大数据分析技术、并且能够提供实践指导的书籍。这本书的标题“包邮Spark SQL大数据实例开发教程+入门与实践指南数据存储管理分析书籍”让我眼前一亮，它精准地抓住了我最核心的需求。我特别关注书中关于“数据存储管理”的部分，因为我深知，没有良好的数据基础，任何高深的分析技术都将是空中楼阁。我希望这本书能详细介绍如何选择合适的数据存储方案，如何对数据进行有效的组织和管理，以及如何优化数据存储以提高查询效率。同时，“实例开发教程”和“入门与实践指南”这两个关键词也表明了本书的实用性。我期待书中能提供丰富、贴近实际项目开发需求的案例，能够从零开始，一步步地带领我掌握Spark SQL的开发技巧。我希望在阅读完这本书后，我能够对大数据存储、管理和分析有一个全面而深入的理解，并且能够独立设计和实现一套高效的大数据分析解决方案。

评分☆☆☆☆☆

我选择这本书，是希望它能够成为我深入理解 Spark SQL 的敲门砖，并且能够为我提供一条清晰的学习路径。我之前也接触过一些大数据相关的书籍，但总感觉不够深入，或者过于理论化。这本书的“实例开发教程”和“入门与实践指南”的定位，让我觉得它会更加注重实际操作和解决问题的能力。我特别期待书中能够详细讲解 Spark SQL 的各种 API 和函数，并且通过丰富的代码示例来展示它们的用法。同时，我也希望这本书能够触及到数据存储管理的一些关键问题，比如如何选择合适的数据格式（Parquet、ORC 等），如何进行数据分区和分桶，以及如何利用这些技术来优化 Spark SQL 的查询性能。如果书中还能包含一些关于 Spark SQL 在实际项目中的应用案例，并且能够讲解这些案例的设计思路和实现细节，那对我来说将是莫大的帮助。我希望读完这本书，我能够对 Spark SQL 有一个扎实的基础，并且能够自信地将其应用于我的数据开发和分析工作中。

评分☆☆☆☆☆

这本书我看了好久，终于趁着打折的时候入手了。说实话，我一直对大数据这个领域挺感兴趣的，尤其是在工作中接触到一些数据处理的需求，感觉光靠 Excel 和一些简单的脚本已经越来越力不从心了。Spark SQL 听起来就非常强大，能处理海量数据，还能用 SQL 的方式来操作，这对我这种 SQL 比较熟悉的人来说，简直是福音。我特别期待这本书能详细讲解 Spark SQL 的核心概念，比如 DataFrame 和 Dataset 的区别和用法，各种 SQL 函数的实现原理，以及如何在 Spark SQL 中进行高效的数据过滤、聚合和连接。还有，书中关于性能优化的部分，如果能给出一些实际的案例和调优技巧，那对我来说就太有价值了。毕竟，在大数据处理中，性能往往是决定项目成败的关键因素。我希望这本书能不仅仅是概念的堆砌，而是能真正地指导我如何去落地，如何去解决实际问题。读完这本书，我希望能对 Spark SQL 有一个系统性的认识，并且能独立完成一些大数据分析的任务。

评分☆☆☆☆☆

这次买这本书，主要是因为被它的“实例开发教程”和“入门与实践指南”这些字眼吸引住了。我一直觉得，理论知识再扎实，如果没有实际操作的经验，也很难真正掌握一项技术。我希望这本书里能包含大量的代码示例，并且这些示例能覆盖到 Spark SQL 开发的各个方面，从最基础的数据读取、写入，到复杂的数据转换、清洗，再到更高级的窗口函数、UDF 的使用。更重要的是，我希望这些实例能贴近实际工作场景，比如处理电商交易数据、用户行为日志、物联网设备数据等等，这样我才能更好地将学到的知识应用到自己的工作中。书中关于数据存储管理的部分，我也很期待。毕竟，在大数据领域，高效的数据存储和管理是支撑一切分析和开发的基础。如果能介绍一些常见的分布式存储系统，比如 HDFS、S3，以及它们与 Spark SQL 的集成方式，那就更好了。我希望这本书能让我从“小白”变成一个能够独立开发 Spark SQL 应用的“小能手”。

评分☆☆☆☆☆

我这次选择这本书，是希望能够系统地学习 Spark SQL 这个强大的工具，并且能够将其应用到实际的大数据开发工作中。我个人比较注重学习的深度和广度，所以希望这本书能够涵盖 Spark SQL 的方方面面，从基础的概念和原理，到进阶的应用和优化。我特别希望书中能够详细讲解 Spark SQL 的执行计划生成和优化机制，以及如何通过 SQL 语句的编写来影响 Spark 的执行效率。另外，我希望书中还能介绍一些 Spark SQL 与其他大数据组件的集成，比如与 Hive、HBase、Kafka 等的配合使用，这样我才能构建更完整的大数据处理流程。数据存储管理这部分我也非常感兴趣，希望能了解如何在高并发、海量数据的场景下，进行有效的数据存储和管理，以保证数据的一致性和可用性。这本书如果能够提供大量的实战案例，并且能够引导我解决实际开发中遇到的难题，那我将会非常满意。