基本信息
書名:Spark大數據商業實戰三部麯:內核解密|商業案例|性能調優
:299.00元
作者:王傢林、段智華、夏陽
齣版社:清華大學齣版社
齣版日期:2018-02-01
ISBN:9787302489627
字數:
頁碼:
版次:1
裝幀:平裝-膠訂
開本:16開
商品重量:0.4kg
編輯推薦
基於*的Spark2.2.X版本,分為內核解密篇,商業案例篇,性能調優篇,共31章,學習過程中有任何疑問,可加入群,有專業人員答疑解惑。
內容提要
《Spark大數據商業實戰三部麯:內核解密|商業案例|性能調優》基於Spark 2.2.X,以Spark商業案例實戰和Spark在生産環境下幾乎所有類型的性能調優為核心,以Spark內核解密為基石,分為上篇、中篇、下篇,對企業生産環境下的Spark商業案例與性能調優抽絲剝繭地進行剖析。上篇基於Spark源碼,從一個動手實戰案例入手,循序漸進地全麵解析瞭Spark 2.2新特性及Spark內核源碼;中篇選取Spark開發中*有代錶的經典學習案例,深入淺齣地介紹,在案例中綜閤應用Spark的大數據技術;下篇性能調優內容基本完全覆蓋瞭Spark在生産環境下的所有調優技術。
目錄
上篇 內核解密
第1章 電光石火間體驗Spark 2.2開發實戰... 2
1.1 通過RDD實戰電影點評係統入門及源碼閱讀... 2
1.2 通過DataFrame和DataSet實戰電影點評係統... 7
1.3 Spark 2.2源碼閱讀環境搭建及源碼閱讀體驗... 11
第2章 Spark2.2技術及原理... 14
2.1 Spark 2.2綜述... 14
2.2 Spark 2.2 Core. 16
2.3 Spark 2.2 SQL. 19
2.4 Spark 2.2 Streaming. 21
2.5 Spark 2.2 MLlib. 27
2.6 Spark 2.2 GraphX.. 29
第3章 Spark的靈魂:RDD和DataSet 30
3.1 為什麼說RDD和DataSet是Spark的靈魂... 30
3.2 RDD彈性特性七個方麵解析... 36
3.3 RDD依賴關係... 43
3.4 解析Spark中的DAG邏輯視圖... 46
3.5 RDD內部的計算機製... 49
3.6 Spark RDD容錯原理及其四大核心要點解析... 57
3.7 Spark RDD中Runtime流程解析... 59
3.8 通過WordCount實戰解析Spark RDD內部機製... 70
3.9 基於DataSet的代碼到底是如何一步步轉化成為RDD的... 78
第4章 SparkDriver啓動內幕剖析... 81
4.1 Spark Driver Program剖析... 81
4.2 DAGScheduler解析... 96
4.3 TaskScheduler解析... 116
4.4 SchedulerBackend解析... 132
4.5 打通Spark係統運行內幕機製循環流程... 135
4.6 本章總結... 145
第5章 Spark集群啓動原理和源碼詳解... 146
5.1 Master啓動原理和源碼詳解... 146
5.2 Worker啓動原理和源碼詳解... 170
5.3 ExecutorBackend啓動原理和源碼詳解... 178
5.4 Executor中任務的執行... 184
5.5 Executor執行結果的處理方式... 189
5.6 本章總結... 197
第6章 SparkApplication提交給集群的原理和源碼詳解... 198
6.1 Spark Application到底是如何提交給集群的... 198
6.2 Spark Application是如何嚮集群申請資源的... 211
6.3 從Application提交的角度重新審視Driver 219
6.4 從Application提交的角度重新審視Executor 249
6.5 Spark 1.6 RPC內幕解密:運行機製、源碼詳解、Netty與Akka等... 254
6.6 本章總結... 267
第7章Shuffle原理和源碼詳解... 268
7.1 概述... 268
7.2 Shuffle的框架... 269
7.3 Hash Based Shuffle. 281
7.4 Sorted Based Shuffle. 290
7.5 Tungsten Sorted Based Shuffle. 302
7.6 Shuffle與Storage 模塊間的交互... 309
7.7 本章總結... 341
第8章 Job工作原理和源碼詳解... 342
8.1 Job到底在什麼時候産生... 342
8.2 Stage劃分內幕... 345
8.3 Task全生命周期詳解... 346
8.4 ShuffleMapTask和ResultTask處理結果是如何被Driver管理的... 364
第9章 Spark中Cache和checkpoint原理和源碼詳解... 372
9.1 Spark中Cache原理和源碼詳解... 372
9.2 Spark中checkpoint原理和源碼詳解... 381
第10章 Spark中Broadcast和Accumulator原理和源碼詳解... 391
10.1 Spark中Broadcast原理和源碼詳解... 391
10.2Spark中Accumulator原理和源碼詳解... 396
第11章 Spark與大數據其他經典組件整閤原理與實戰... 399
11.1Spark組件綜閤應用... 399
11.2 Spark與Alluxio整閤原理與實戰... 400
11.3 Spark與Job Server整閤原理與實戰... 403
11.4 Spark與Redis整閤原理與實戰... 406
中篇 商業案例
第12章 Spark商業案例之大數據電影點評係統應用案例... 412
12.1 通過RDD實現分析電影的用戶行為信息... 412
12.2 通過RDD實現電影流行度分析... 431
12.3 通過RDD分析各種類型的喜愛電影TopN及性能優化技巧... 433
12.4 通過RDD分析電影點評係統仿和微信等用戶群分析及廣播
背後機製解密... 436
12.5 通過RDD分析電影點評係統實現Java和Scala版本的二次排序係統... 439
12.6 通過Spark SQL中的SQL語句實現電影點評係統用戶行為分析... 447
12.7 通過Spark SQL下的兩種不同方式實現口碑佳電影分析... 451
12.8 通過Spark SQL下的兩種不同方式實現流行電影分析... 456
12.9 通過DataFrame分析受男性和女性喜愛電影TopN.. 457
12.10 純粹通過DataFrame分析電影點評係統仿和微信、等用戶群... 460
12.11 純粹通過DataSet對電影點評係統進行流行度和不同年齡階段興趣分析等... 462
(口碑好)的電影TopN.. 464
電影0. 466
用戶喜愛電影TopN分析... 467
12.12 大數據電影點評係統應用案例涉及的核心知識點原理、源碼及案例代碼... 470
12.13 本章總結... 496
作者介紹
文摘
序言
這本書的齣版,對於想要深入理解 Spark 技術,並將其應用於實際商業場景的讀者來說,無疑是一場及時雨。作者在內核解密部分,將 Spark 復雜的分布式計算原理,以一種邏輯清晰、循序漸進的方式呈現在讀者麵前。我尤其欣賞作者對 Spark 內部執行流程的細緻描繪,比如它如何處理數據分區、如何進行任務調度、以及它在容錯方麵的機製。這些深入的剖析,讓我擺脫瞭對 Spark 僅停留在“黑盒”的認知,而是能夠理解其“為什麼”能如此高效地處理海量數據。 更讓我印象深刻的是,書中的商業案例部分,並非是簡單的理論堆砌,而是真正從企業實際需求齣發,展示瞭 Spark 如何成為解決復雜商業問題的強大引擎。這些案例覆蓋瞭多個行業,分析瞭 Spark 在其中扮演的關鍵角色,以及它如何為企業帶來切實的業務價值。這種深度結閤商業實戰的視角,讓我看到瞭 Spark 的真正力量,也為我將來在工作中運用 Spark 提供瞭寶貴的參考和指導。
評分我是一名剛接觸大數據技術不久的學生,一直對 Spark 這種熱門技術感到好奇,但又覺得它的學習麯綫陡峭,難以入手。偶然間發現瞭這本書,抱著試一試的心態開始閱讀。令我驚喜的是,書中的講解非常易懂,作者善於將復雜的概念轉化為通俗易懂的語言,並配閤大量的圖示和代碼示例,讓我這個新手也能快速跟上節奏。 書中關於 Spark 性能調優的部分,更是讓我受益匪淺。我過去常常覺得 Spark 程序運行緩慢,但不知道問題齣在哪裏。這本書詳細講解瞭內存溢齣、GC 調優、Shuffle 優化等關鍵技術,並提供瞭實用的調優策略和工具。我按照書中的方法,對自己的一個 Spark 項目進行瞭調優,運行速度竟然提升瞭近一倍!這讓我對 Spark 的技術能力有瞭更深的信心,也讓我看到瞭自己在大數據領域發展的無限可能。
評分作為一名在數據分析領域摸爬滾打多年的老兵,我一直尋求能夠真正提升工作效率、解決棘手問題的工具和方法。Spark 的齣現無疑是一個裏程碑,而這本書則像是為我量身打造的“葵花寶典”。書的前半部分,作者以一種非常務實的方式,剖析瞭 Spark 的內核,讓我對它的內存管理、調度機製、容錯策略有瞭前所未有的清晰認識。我過去常常在工作中遇到性能瓶頸,卻不知從何下手,這本書恰恰點亮瞭我前進的方嚮。 後麵的章節更是讓我驚喜連連。作者選取瞭幾個極具代錶性的商業案例,並詳細拆解瞭 Spark 在其中的應用過程。我曾嘗試過一些大數據框架,但往往難以將理論與實際業務場景完美結閤。這本書的案例分析,讓我看到瞭 Spark 在實際業務場景中是如何落地生根,並産生巨大價值的。它不僅僅是教我“怎麼用”,更是告訴我“為什麼這麼用”,以及“如何用得更好”。這本書讓我對 Spark 的理解從“工具”提升到瞭“戰略”,為我打開瞭新的職業發展思路。
評分我是一位在傳統 IT 行業摸爬滾打多年的從業者,近些年感受到瞭大數據浪潮的衝擊,並意識到 Spark 作為其中的佼佼者,是必須掌握的核心技能。市麵上關於 Spark 的書籍不少,但很多都停留在基礎概念的講解,對於如何將其應用於復雜的商業環境中,以及如何實現性能的極緻優化,往往語焉不詳。而這本書,恰恰填補瞭這一空白。 作者在本書中,對 Spark 的底層原理進行瞭深刻的剖析,讓我對 Spark 的運行機製有瞭更全麵的認識。我一直對 Spark 的內存管理和任務調度機製感到好奇,這本書的講解讓我豁然開朗。同時,書中針對不同場景的性能調優方法,更是讓我眼前一亮。我曾嘗試過一些優化手段,但效果甚微,而這本書提供的係統性調優思路和具體操作方法,讓我看到瞭解決性能瓶頸的希望。這本書的價值,在於它不僅教你“是什麼”,更教你“怎麼做”,以及“如何做得更好”。
評分這本書真是讓我大開眼界!我一直對 Spark 在大數據處理方麵的強大能力有所耳聞,但一直缺乏一個係統性的、深入的瞭解。讀完這本書,我感覺自己像是獲得瞭打開大數據世界大門的鑰匙。書中的講解非常細緻,從 Spark 的核心架構到各個組件的運作原理,都剖析得鞭闢入裏。我尤其喜歡作者用生動的比喻和清晰的圖示來解釋那些復雜的概念,比如 RDD 的形成、DAG 的構建、Shuffle 的過程等等,這些抽象的概念變得不再令人望而生畏。 更重要的是,書中並沒有止步於理論的講解,而是將這些理論知識巧妙地融入到瞭一個個真實的商業案例分析中。作者選取瞭不同行業、不同規模的實際項目,詳細展示瞭 Spark 如何被用來解決實際業務問題,比如精準營銷、風控預警、用戶畫像構建等等。我能看到 Spark 在這些案例中扮演的核心角色,理解瞭它如何幫助企業提升效率、降低成本、發現新的商業價值。這種“理論+實踐”的學習方式,讓我能夠更直觀地感受到 Spark 的強大之處,也激發瞭我將這些知識應用到我自身工作中的熱情。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有