Spark大数据实例开发教程 pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

王家林，徐香玉等著

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静思书屋

book.idnshop.cc

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111519096

版次：1

商品编码：11837015

品牌：机工出版

包装：平装

开本：16开

出版时间：2015-12-01

用纸：胶版纸

页数：332

具体描述

编辑推荐

适读人群：spark大数据开发者
　　大数据资深培训师、Spark大数据畅销书《大数据Spark企业级实战》作者王家林新作。
　　内容广度和深度兼顾，覆盖了Spark技术的核心知识点，全程注重从架构的底层到上层，由宏观到微观的讲解。
　　秉承“实战”类图书特色，解析大量案例和代码的编写操作，具有较强的可操作性，便于读者学习和理解。

内容简介

　　书中第1章首先通过介绍Spark的生态系统和RDD编程模型，使读者能够快速的对Spark技术的生态环境以及对Spark的RDD编程模型有个非常直观的了解。第2章，首先介绍了Spark应用的两种部署模式；然后在应用部署模式基础上，开始Spark实战的案例与解析，通过提供一个完整的基础案例，使读者了解一个Spark应用的大致处理流程；接着对实战中的重点部分，结合源码分析、监控日志分析等深入解析了Spark运行机制、DAG图等关键内容；后给出Spark开发者常用的应用程序构建案例与分析，以及调试环境搭建的案例与应用调试的案例。第3章重点针对SparkSQL子模块进行实战，首先概要分析了Spark1.3版本中引入的DataFrame，然后基于DataFrame编程模型给出一个完整的基础案例与解析，接着也是针对实战中的难度、重点部分，给予了更丰富的案例与深入地分析，后，重点关注Spark1.3版本中DataFrame当前支持的各种数据源，并给出各种数据源基础上的案例与分析，数据源包括各种结构化数据文件、Hive表、外部数据库或现有的RDD。第4章针对流处理进行实战，首先分析流处理中的关键点和难度，并通过实例进行深入解析。然后针对各种数据源的情景，给出由浅入深的实战案例与解析，并结合部分源码，分析流处理的性能调优等，并给出实例与分析。第5章针对著名的分布式内存存储系统Tachyon进行实战，并对实战案例进行分析，内容包括从Tachyon集群部署的案例与分析、Tachyon集群配置的案例与分析等，后关注Tachyon对Spark应用的性能调优的影响，给出实战案例及其深入解析。第6章通过大约30个动手实践的案例循序渐进地展示SparkGraphX框架方方面面的功能和使用方法，并对SparkGraphX的源码进行解析，并用综合实战案例巩固知识；第7章从快速入门机器学习开始，详细解析MLlib框架，通过对线性回归、聚类、协同过滤的算法解析、源码解析和案例实战，循序渐进地揭秘MLLib，后通过对MLlib中BasicStatics、朴素贝叶斯算法、决策树的解析和实战，进一步提升掌握Spark机器学习的技能。

第1章Spark简介
1.1什么是Spark
1.2Spark生态圈
1.2.1伯克利数据分析协议栈
1.2.2Spark开源社区发展
1.3RDD编程模型
1.3.1RDD抽象概念
1.3.2RDD的操作
1.3.3RDD的依赖关系
1.3.4一个典型的DAG示意图
第2章Spark RDD实践案例与解析
2.1Spark应用程序部署
2.1.1Spark应用的基本概念
2.1.2应用程序的部署方式
2.2RDD数据的输入、处理、输出的基本案例与解析
2.2.1集群环境的搭建
2.2.2交互式工具的启动
2.2.3文本数据的ETL案例实践与解析
2.2.4文本数据的初步统计案例实践与解析
2.2.5文本数据统计结果的持久化案例实践与解析
2.2.6RDD的Lineage关系的案例与源码解析
2.2.7RDD的持久化案例与解析
2.2.8RDD的构建案例与解析
2.2.9分区数设置的案例与源码解析
2.3RDD API的应用案例与解析
2.3.1如何查找RDD API的隐式转换
2.3.2RDD[T]的分区相关的API
2.3.3RDD[T]常用的聚合API
2.3.4DoubleRDDFunctions(self:RDD[Double])常用的API
2.3.5PairRDDFunctions［K,V］聚合相关的API
2.3.6RDD相互间操作的API
2.3.7PairRDDFunctions［K,V］间的相关API
2.3.8OrderedRDDFunctions［K,V,P<:Product2［K,V］］常用的API
2.4Spark应用程序构建
2.4.1基于SBT构建Spark应用程序的实例
2.4.2基于IDEA构建Spark应用程序的实例
2.4.3Spark提交应用的调试实例
2.5移动互联网数据分析案例与解析
2.5.1移动互联网数据的准备
2.5.2移动互联网数据分析与解析
2.6Spark RDD实践中的常见问题与解答
第3章Spark SQL实践案例与解析
3.1Spark SQL概述
3.2DataFrame处理的案例与解析
3.2.1DataFrame编程模型
3.2.2DataFrame基本操作案例与解析
3.2.3DataFrame与RDD之间的转换案例与解析
3.2.4缓存表（列式存储）的案例与解析
3.2.5DataFrame API的应用案例与分析
3.3Spark SQL处理各种数据源的案例与解析
3.3.1通用的加载/保存功能的案例与解析
3.3.2Parquet文件处理的案例与解析
3.3.3JSON数据集操作的案例与解析
3.3.4操作Hive表的案例与解析
3.3.5使用JDBC 操作其他数据库的案例与解析
3.3.6集成Hive数据仓库的案例与解析
3.4基于Hive的人力资源系统数据处理案例与解析
3.4.1人力资源系统的数据库与表的构建
3.4.2人力资源系统的数据的加载
3.4.3人力资源系统的数据的查询
第4章Spark Streaming实践案例与解析
4.1Spark Streaming概述
4.2Spark Streaming基础概念
4.3企业信息实时处理的案例与解析
4.3.1处理TCP数据源的案例与解析
4.3.2处理HDFS文件数据源的案例与解析
4.3.3处理Kafka数据源的准备工作
4.3.4基于Receiver读取Kafka数据的案例与解析
4.3.5直接读取（无Receiver）Kafka数据的案例与解析
4.3.6处理Flume数据源的实践准备
4.3.7基于Flume风格的推送数据案例与解析
4.3.8定制FlumeSink的拉取数据案例与解析
4.4性能调优
4.4.1减少批处理的时间
4.4.2设置正确的批间隔
4.4.3内存调优
第5章Tachyon实践案例与解析
5.1Tachyon概述
5.2重新编译部署包
5.2.1重新编译Tachyon的部署包
5.2.2重新编译Spark的部署包
5.3Tachyon部署的案例与解析
5.3.1单机模式部署的案例与解析
5.3.2集群模式部署的案例与解析
5.3.3集群Master容错部署的案例与解析
5.4Tachyon配置的案例与解析
5.4.1底层存储系统的配置案例与解析
5.4.2配置属性与解析
5.5命令行接口的案例与解析
5.5.1命令行接口的说明
5.5.2命令行接口的案例实践与解析
5.6同步底层文件系统的案例与解析
5.6.1同步HDFS底层文件系统的案例与解析
5.6.2同步本地底层文件系统的案例与解析
5.7基于Tachyon运行的案例与解析
5.7.1基于Tachyon运行Spark的案例与解析
5.7.2基于Tachyon运行Hadoop MR的案例与解析
附录Spark 1.4版本新特性

前言/序言

　　Spark起源于2009年，是美国加州大学伯克利分校AMP实验室的一个研究性项目。Spark于2010年开源，是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台，是Apache软件基金会所有开源项目中三大顶级开源项目之一。
　　Spark是用Scala语言写成的一套分布式内存迭代计算系统，它的核心抽象概念是弹性分布式数据集（Resilient Distributed Dataset，RDD），在“One Stack to rule them all”（一个技术堆栈容纳各种数据处理技术）理念的指引下，Spark基于RDD成功地构建起了大数据处理的一体化解决方案，将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大数据计算模型统一到一个技术堆栈中，开发者可以使用同样的API操作Spark中的所有功能。更为重要的是，Spark的Spark SQL、MLLib、GraphX、Spark Streaming等四大子框架（在Spark 1.4版本中，加入了新的SparkR子框架）之间可以在内存中完美的无缝集成并可以互相操作彼此的数据，这不仅打造了Spark在当今大数据计算领域相比其他任何计算框架具备的无可匹敌的优势，更使得Spark正在加速成为大数据处理中心首选的和唯一的计算平台。
　　目前，Spark已经发展成为包含众多子项目的大数据计算平台。Spark的整个生态系统称为伯克利数据分析栈（BDAS）。其核心框架是Spark，同时BDAS涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL，提供具有机器学习功能的系统MLbase及底层的分布式机器学习库MLlib、并行图计算框架GraphX、流计算框架Spark Streaming、采样近似计算查询引擎BlinkDB、内存分布式文件系统Tachyon、资源管理框架Mesos等子项目。这些子项目在Spark上提供了更高层、更丰富的计算范式。
　　随着Spark社区的不断成熟，它已被广泛应用于阿里巴巴、百度、网易、英特尔等各大公司的生产环境中。
　　关于Spark及其开发案例的中文资料比较匮乏，相关书籍也比较少，社区内开发者们主要的学习方式仍然限于阅读有限的官方文档、源码、AMPLab发表的论文，以及社区讨论等。
　　为了让Spark初学者能快速进入开发阶段，本书针对Spark内核、Spark SQL以及Spark Streaming等内容，提供了一系列的开发案例，基于这些开发案例，详细记录并解析了这几个子框架开发过程的各个步骤。
　　Spark的发展日新月异，在本书撰写时，Spark 1.3版本刚刚发布，因此，本书全部的开发案例都是基于该版本进行的。同时，鉴于Spark是用Scala语言编写的，本书的开发案例也采用Scala语言作为开发语言。
　　本书共5章，内容包括：
　　第1章：Spark简介，内容包括介绍Spark的基本概念、Spark生态圈以及RDD编程模型等内容；
　　第2章：Spark RDD实践案例与解析，内容包括Spark应用程序的部署、RDD数据的输入、处理、输出的基本案例与解析、RDD API的应用案例与解析、Spark应用程序的构建，以及移动互联网数据分析案例与解析等内容；
　　第3章：Spark SQL实践案例与解析，内容包括Spark SQL概述、DataFrame处理的案例与解析、Spark SQL处理各种数据源的案例与解析，以及基于Hive的人力资源系统数据处理案例与解析等内容；
　　第4章：Spark Streaming实践案例与解析，内容包括Spark Streaming概述、Spark Streaming基础概念、企业信息实时处理的案例与解析，以及性能调优等内容；
　　第5章：Tachyon实践案例与解析，内容包括Tachyon概述、Tachyon部署的案例与解析、Tachyon配置的案例与解析、命令行接口的案例与解析、同步底层文件系统的案例与解析，以及基于Tachyon运行Spark和Hadoop的案例与解析等内容。
　　在全书最后，特别介绍了Spark 1.4版本的新特性。
　　预备知识
　　熟悉Linux/UNIX类操作系统的基本命令操作以及Java或Scala语言对理解本书内容大有裨益。建议构建3台及以上服务器的集群环境，以更好地实践并理解分布式环境中的Spark运行框架与计算。
　　本书的目标读者
　　作为Spark入门的开发案例，本书适合刚接触Spark或对Spark分布式计算的开发不熟悉的初学者。对于熟悉函数式开发或面向对象开发，并有一定经验的开发者，本书也可以作为开发案例的参考书籍。
　　本书由王家林，徐香玉编著，参与编写的还有：王家虎、王家俊、王燕军。限于作者水平，书中疏漏之处在所难免，欢迎广大读者批评指正。
　　编者