Spark Cookbook 中文版 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[印度] Rishi，Yadav（亚达夫）著，顾星竹，刘见康译

图书标签:

Spark
大数据
数据处理
Scala
Python
Java
机器学习
数据分析
分布式计算
Cookbook

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静思书屋

book.idnshop.cc

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：人民邮电出版社

ISBN：9787115429667

版次：01

商品编码：11987407

品牌：异步图书

包装：平装

开本：16开

出版时间：2016-10-01

页数：190

正文语种：中文

具体描述

编辑推荐

Spark是新兴的大数据处理引擎，在大数据处理方面有：超快速、多语言支持、复杂查询支持、实时流处理、集成Hadoop及Hadoop已有功能、活跃的用户社区等优势。
这是一本为数据工程师、应用开发人员、数据科学家而编写的，非常利于学习和运用Spark的杰出指南。

内容简介

Spark是一个基于内存计算的开源集群计算系统，它非常小巧玲珑，让数据分析更加快速，已逐渐成为新一代大数据处理平台中的佼佼者。
本书内容分为12章，从认识Apache Spark开始讲解，陆续介绍了Spark的使用、外部数据源、Spark SQL、Spark Streaming、机器学习、监督学习中的回归和分类、无监督学习、推荐系统、图像处理、优化及调优等内容。
本书适合大数据领域的技术人员，可以帮助他们更好地洞悉大数据，本书也适合想要学习Spark进行大数据处理的人员，它将是一本**的参考教程。

作者简介

Rishi Yadav拥有17年设计和开发企业级应用的经验。他是一位开源软件专家，引领了美国公司的大数据趋势。Rish被评为2014年40位40岁以下硅谷杰出工程师之一。他于1998年获得杰出的印度理工学院（Indian Institute of Technology，IIT）德里分校的学士学位。大约在10年前，Rishi创办了InfoObjects，这是一家以深度探索数据为宗旨的企业。该公司已连续4年被列入发展快公司5000强。InfoObjects也被授予了2014及2015年度湾区杰出工作地点首名的桂冠。Rishi还是一位开源社区贡献者和活跃的博主。

目录

第1章　开始使用Apache Spark 1
1．1　简介　1
1．2　使用二进制文件安装Spark　2
1．3　通过Maven构建Spark源码　5
1．4　在Amazon EC2上部署Spark　7
1．5　在集群上以独立模式部署
Spark　13
1．6　在集群上使用Mesos部署Spark　18
1．7　在集群上使用YARN部署　19
1．8　使用Tachyon作为堆外存储层　22
第2章　使用Spark开发应用　27
2．1　简介　27
2．2　探索Spark shell　27
2．3　在Eclipse中使用Maven开发Spark应用　29
2．4　在Eclipse中使用SBT开发Spark应用　33
2．5　在Intellij IDEA中使用Maven开发Spark应用　34
2．6　在Intellij IDEA中使用SBT开发Spark应用　36
第3章　外部数据源　38
3．1　简介　38
3．2　从本地文件系统加载数据　39
3．3　从HDFS加载数据　40
3．4　从HDFS加载自定义输入格式的数据　45
3．5　从Amazon S3加载数据　46
3．6　从Apache Cassandra加载数据　49
3．7　从关系型数据库加载数据　54
第4章　Spark SQL　57
4．1　简介　57
4．2　理解Catalyst优化器　60
4．3　创建HiveContext　63
4．4　使用case类生成数据格式　66
4．5　编程指定数据格式　67
4．6　使用Parquet格式载入及存储数据　69
4．7　使用JSON格式载入及存储数据　73
4．8　从关系型数据库载入及存储数据　75
4．9　从任意数据源载入及存储数据　78
第5章　Spark Streaming　80
5．1　简介　80
5．2　使用Streaming统计字数　82
5．3　Twitter流数据处理　84
5．4　Kafka流数据处理　88
第6章　机器学习——MLlib　94
6．1　简介　94
6．2　创建向量　95
6．3　创建向量标签　97
6．4　创建矩阵　99
6．5　计算概述统计量　101
6．6　计算相关性　102
6．7　进行假设检验　104
6．8　使用ML创建机器学习
流水线　106
第7章　监督学习之回归——MLlib　109
7．1　简介　109
7．2　使用线性回归　110
7．3　理解代价函数　112
7．4　使用Lasso线性回归　116
7．5　使用岭回归　117
第8章　监督学习之分类——MLlib　119
8．1　简介　119
8．2　逻辑回归分类　119
8．3　支持向量机二元分类　124
8．4　决策树分类　127
8．5　随机森林分类　134
8．6　梯度提升树（GBTs）分类　139
8．7　朴素贝叶斯分类　140
第9章　无监督学习——MLlib　143
9．1　简介　143
9．2　使用k-means聚类　144
9．3　主成分分析的降维　149
9．4　奇异值分解降维　155
第10章　推荐系统　159
10．1　简介　159
10．2　显性反馈的协同过滤　161
10．3　隐性反馈的协同过滤　164
第11章　图像处理——GraphX　169
11．1　简介　169
11．2　基本图像运算　170
11．3　使用PageRank　171
11．4　查找连通分量　174
11．5　相邻聚合实现　177
第12章　优化及调优　180
12．1　简介　180
12．2　内存优化　183
12．3　使用压缩提升性能　185
12．4　使用序列化提升性能　186
12．5　优化垃圾回收　187
12．6　优化并行度的级别　187
12．7　理解未来的优化——Tungsten
项目　188

《Spark Cookbook》中文版：大数据处理的实战指南在当今数据驱动的时代，如何高效、可靠地处理海量数据已成为企业和开发者面临的关键挑战。Apache Spark，作为新一代的大数据处理引擎，以其卓越的内存计算能力、丰富的API生态以及对批处理、流处理、机器学习和图计算的统一支持，迅速成为了业界翘楚。然而，对于许多想要驾驭Spark的从业者来说，从理论走向实践，掌握解决实际问题的技巧，往往需要大量的摸索和经验积累。《Spark Cookbook》中文版应运而生，它并非一本浅尝辄止的入门教程，而是致力于成为您在大数据处理征程中不可或缺的实战宝典。本书旨在为广大开发者、数据科学家、大数据工程师以及对Spark技术感兴趣的技术爱好者，提供一套系统、详尽且贴合实际需求的解决方案。我们深知，掌握一个强大的技术框架，绝不仅仅是了解其基本概念和API，更重要的是知道如何将这些工具巧妙地运用到复杂、多变的业务场景中，如何规避潜在的陷阱，如何优化性能，如何构建稳定可靠的分布式应用。《Spark Cookbook》中文版正是围绕这一核心目标而精心打造，它将带领您深入Spark的各个角落，通过一个个精心设计的“菜谱”（Recipes），帮助您快速掌握处理不同大数据任务的“独门秘籍”。为何选择《Spark Cookbook》？与市面上许多侧重于理论讲解或基础API介绍的书籍不同，《Spark Cookbook》中文版将视角聚焦于“实战”二字。我们相信，最好的学习方式莫过于通过解决实际问题来驱动理解。因此，本书的每一章节都围绕着一个或一组具体的、来源于真实项目需求的应用场景展开。从数据的加载、转换、清洗，到复杂的分析、建模，再到应用的部署和监控，您都将找到相应的“菜谱”。本书的最大特色在于其“cookbook”式的结构。我们摒弃了枯燥的理论堆砌，而是以“问题-解决方案-详细解释”的模式，呈现给读者。您在阅读时，可以根据自己当前面临的具体问题，直接翻阅到对应的章节，学习相应的解决方案，并深入理解其背后的原理和最佳实践。这种方式不仅大大提高了学习效率，更能帮助您快速将所学知识应用到实际工作中，解决燃眉之急。本书内容亮点概览：《Spark Cookbook》中文版覆盖了Spark生态系统中最为核心和常用的组件，并提供了大量的实操案例。以下是本书的主要内容亮点：第一部分：Spark核心基础与数据处理 Spark环境搭建与快速入门：无论您是初次接触Spark，还是希望快速熟悉最新的版本特性，这里都会提供清晰的安装、配置和基础交互指南。我们将演示如何在本地、集群环境中快速启动Spark Shell和Spark应用程序，并完成一些简单的交互式数据分析任务。 RDD（Resilient Distributed Dataset）深度解析与应用：作为Spark的基石，RDD的理解至关重要。本部分将深入探讨RDD的创建、转换（Transformation）和行动（Action）操作，演示如何进行高效的数据过滤、映射、聚合等操作。您将学会如何利用RDD构建复杂的数据处理管道，并理解其惰性求值和容错机制。 DataFrame与Spark SQL： DataFrame作为Spark 1.3版本推出的更高级抽象，极大地简化了结构化数据的处理。本书将详细讲解DataFrame的创建、Schema推断、API使用，以及如何利用Spark SQL进行声明式的数据查询和分析。您将掌握如何将SQL查询无缝集成到Spark应用程序中，并利用DataFrame进行复杂的数据探索和ETL（Extract, Transform, Load）流程。数据加载与保存：真实世界的数据存储在各种不同的介质和格式中，如HDFS、S3、Cassandra、Hive、JSON、Parquet、CSV等。本书将提供一系列“菜谱”，教您如何高效、灵活地加载和保存各种格式的数据，并针对不同数据源进行优化。数据清洗与预处理：脏数据是大数据分析的“拦路虎”。本部分将聚焦于常见的数据清洗和预处理任务，包括缺失值处理、异常值检测与处理、数据类型转换、重复数据删除、字符串操作、日期时间处理等，并提供基于Spark的自动化解决方案。数据聚合与分组：聚合是数据分析的核心操作之一。您将学会如何使用Spark进行各种形式的数据聚合，包括基于键的分组聚合（groupByKey, reduceByKey, aggregateByKey）、窗口函数（Window Functions）的应用，以及如何执行复杂的SQL聚合查询。第二部分：Spark进阶主题与性能优化 Spark Streaming与Structured Streaming：实时数据处理已成为现代应用的标配。本书将全面介绍Spark Streaming的DStream API，以及更新、更强大的Structured Streaming API。您将学习如何处理实时数据流，进行窗口计算、状态管理，并构建端到端的实时分析应用。 Spark MLlib机器学习库： Spark内置了强大的机器学习库MLlib，为构建可扩展的机器学习模型提供了便捷的工具。本书将涵盖MLlib的常见算法，如分类（逻辑回归、决策树、随机森林）、回归（线性回归）、聚类（K-Means）、降维（PCA）等。您将学习如何构建、训练、评估和部署机器学习模型，并利用DataFrame API进行特征工程。 Spark GraphX图计算：对于需要分析图结构数据的应用，如社交网络分析、推荐系统等，GraphX提供了强大的支持。本书将介绍GraphX的RDD API和DataFrame API，讲解如何进行图的构建、顶点和边的属性操作，以及PageRank、Connected Components等图算法的应用。 Spark性能调优：性能是分布式计算的生命线。本书将深入剖析Spark的执行机制，包括DAG（Directed Acyclic Graph）调度、Shuffle过程、缓存（Caching）策略、序列化等。您将学习如何通过调整Spark的配置参数、优化代码逻辑、选择合适的数据结构，以及理解Spark UI来诊断和解决性能瓶颈，榨干Spark的每一分潜力。 UDF（User-Defined Functions）与自定义逻辑：当Spark内建函数无法满足需求时，自定义函数（UDF）就显得尤为重要。本书将指导您如何在Spark SQL和DataFrame中使用Python、Scala等语言编写UDF，并讨论UDF的性能影响和优化策略。 Spark集群部署与管理：掌握Spark在实际生产环境中的部署和管理至关重要。本书将涵盖在YARN、Kubernetes等不同资源管理器上的部署方式，以及应用的提交、监控和资源管理。第三部分：实际应用场景与最佳实践 ETL流程构建：本书将通过多个案例，演示如何利用Spark构建健壮、高效的ETL流程，实现从各种数据源的数据抽取、清洗、转换，到加载到目标数据仓库的过程。实时数据分析与告警：结合Spark Streaming/Structured Streaming，我们将构建能够实时监控、分析数据流，并触发告警的应用。推荐系统构建：利用Spark MLlib或GraphX，我们将探索构建基于协同过滤或图算法的推荐系统。数据挖掘与模式发现：通过Spark的各种分析工具，您将学会如何在大规模数据中发现有价值的模式和洞察。微服务与Spark集成：探讨如何将Spark应用程序与现有的微服务架构集成，实现数据处理能力的赋能。《Spark Cookbook》中文版适合谁？大数据工程师：想要系统学习Spark，掌握其核心技术，并能将其应用于实际项目中的工程师。数据科学家：希望利用Spark强大的计算能力，高效地进行数据探索、特征工程和机器学习模型训练的科学家。开发人员：需要在应用程序中集成大数据处理功能的开发者，希望快速掌握Spark开发技能。技术爱好者：对大数据处理技术充满好奇，希望深入了解Spark工作原理并动手实践的个人。本书的价值所在：《Spark Cookbook》中文版不仅仅是一本书，更是您在大数据技术栈中的得力助手。它将帮助您：快速解决实际问题：通过大量实例，直接应对您在工作中遇到的技术难题。建立扎实的基础：从基础概念到高级特性，系统构建对Spark的全面认知。掌握性能调优技巧：深入理解Spark的工作原理，学会如何优化应用程序性能。提升开发效率：掌握Spark生态系统的各种工具和API，编写更简洁、高效的代码。构建可靠的分布式应用：理解Spark的容错机制和最佳实践，确保应用的稳定运行。无论您是正在规划大数据项目的架构师，还是奋战在一线的开发者，亦或是渴望掌握未来数据处理能力的学习者，《Spark Cookbook》中文版都将是您不可多得的学习资源。它将陪伴您穿越大数据的洪流，解锁Spark的无限可能，最终将数据转化为驱动业务增长的强大引擎。立即翻开这本书，开启您的Spark实战之旅吧！

用户评价

评分☆☆☆☆☆

作为一个对新技术充满渴望的初学者，我一直在寻找一本能够让我快速入门并爱上Spark的书籍。当我看到《Spark Cookbook》中文版的时候，我立刻被它的名字吸引了。我希望这本书能够成为我的第一本Spark入门宝典，它能用最简单、最直观的方式，引导我一步步走进Spark的世界。我期待它能够从最基础的概念讲起，比如Spark是什么，它为什么这么强大，然后逐步深入到实际操作。我希望它能提供大量的代码示例，并且这些代码示例都是可以直接运行的，让我能够通过动手实践来加深理解。我特别看重“Cookbook”这个关键词，它意味着这本书会提供一系列的“解决方案”，就像菜谱一样，告诉我如何解决具体的问题。我希望它能够涵盖数据读取、数据清洗、数据转换、基本的数据分析等一系列我作为新手最需要掌握的技能。我希望通过这本书，我能够对Spark产生浓厚的兴趣，并且能够建立起用Spark解决实际问题的信心。

评分☆☆☆☆☆

作为一个在数据科学领域摸爬滚打多年的老兵，我早已领略过Spark的强大之处，但工作中总有一些新的挑战和场景不断涌现，让我觉得在某些方面还需要更深入的理解和更高效的处理技巧。当我在朋友的推荐下了解到《Spark Cookbook》中文版时，我感到眼前一亮。我并不需要从零开始学习Spark的基本概念，而是更希望能找到一些能够帮助我“锦上添花”的高级技巧和解决方案。我期待这本书能够提供一些针对特定业务场景的优化方案，比如如何在高并发环境下提升Spark作业的性能，如何处理海量的小文件，如何进行更复杂的窗口函数操作，以及如何利用Spark MLlib构建更精细化的模型。我希望这本书的“Cookbook”形式能够体现在它提供的是经过验证的、可以直接应用到生产环境中的“配方”，并且附带了对这些“配方”背后原理的简要解释，让我能够知其然，更知其所以然。我希望它能帮助我突破一些技术瓶颈，让我能够更从容地应对复杂的、非标准的数据处理任务，从而提升我的工作效率和解决问题的能力。

评分☆☆☆☆☆

我一直认为，学习一门技术，尤其是像Spark这样功能强大的分布式计算框架，最有效的方式莫过于通过大量的实战案例来驱动。我购买《Spark Cookbook》中文版，正是看中了它“Cookbook”的独特模式。我期待它能提供一系列精心设计的“菜谱”，涵盖Spark在数据清洗、ETL、流式处理、图计算以及机器学习等各个核心领域的常见应用场景。我希望能从中找到如何快速读取不同格式的数据，如何进行高效的数据转换和聚合，如何利用Spark SQL进行灵活的数据查询，以及如何构建简单的机器学习模型等“食谱”。更重要的是，我希望这些“食谱”不仅仅是简单的代码堆砌，而是能够清晰地解释每一步操作的逻辑，以及它们在实际大数据处理流程中扮演的角色。我希望通过阅读这本书，能够像烹饪一样，从简单的“开胃菜”开始，逐步掌握“主菜”和“甜点”的制作方法，最终能够融会贯通，根据自己的实际需求，灵活地组合和创新出属于自己的“菜肴”。这不仅是为了掌握Spark的API，更是为了培养一种解决大数据问题的思维方式。

评分☆☆☆☆☆

作为一个对大数据处理充满好奇但又深感力不从心的新手，我一直渴望找到一本能够真正引领我入门，并且能让我快速上手实践的书籍。当我在书店看到《Spark Cookbook》中文版时，我心中一动，封面上“Cookbook”这个词就给我一种亲切感，仿佛它是一本能够教我做出美味大餐的菜谱，而不是枯燥的技术手册。翻开目录，我看到了一系列我急需了解的主题，比如数据读取、转换、聚合，甚至是机器学习的入门。我尤其看重它“Cookbook”的定位，这意味着它不会像学术论文那样深挖理论的细枝末节，而是更侧重于提供解决实际问题的“配方”，让我能够直接套用，然后在这个过程中去理解背后的原理。我希望这本书能够像一个经验丰富的大厨，手把手地教我如何用Spark这套强大的厨具，制作出令人惊艳的大数据“佳肴”。我期待着它能帮助我解决工作中遇到的数据处理瓶颈，让我能够自信地驾驭Spark，成为一个能独当一面数据工程师，而不是继续原地徘徊。我希望这本书的案例能够贴合实际工作场景，让我学到的东西能够立即派上用场，而不是只停留在理论层面。

评分☆☆☆☆☆

我是一名对数据分析充满热情，但相对技术背景稍弱的业务分析师。我经常需要处理大量的数据，并从中提取有价值的洞察，但繁琐的数据处理过程常常让我头疼不已。听说《Spark Cookbook》中文版是一本非常实用的指南，我满怀期待地入手了。我希望这本书能够以一种非常易懂的方式，将Spark这个强大工具的应用门路展现在我面前。我期待它能够像一本真的“烹饪手册”一样，用清晰的步骤和直观的例子，教我如何一步步地完成数据的准备、清洗、转换以及初步的分析。我并不需要深入了解Spark底层的分布式原理，但我非常需要知道如何利用它来快速地完成我日常工作中遇到的数据处理任务。我希望它能提供一些“一键式”的解决方案，或者是一些可以直接套用的代码模板，让我能够快速上手，减少学习成本。我希望通过这本书，我能够变得更加独立，能够自己处理大部分数据相关的问题，而不再需要过度依赖技术团队。

评分☆☆☆☆☆

印度人写的书，不如其他cookbook实在

评分☆☆☆☆☆

打算入门spark 先买来看看，先过一遍然后再仔细看吧

评分☆☆☆☆☆

内容广泛，阅读很有兴趣。

评分☆☆☆☆☆

简单快捷实用，适合应用人员快速入门

评分☆☆☆☆☆

收到货了，速度很快，赞一个！

评分☆☆☆☆☆

好书推荐，好书推荐，好书推荐！