| 機工 spark快數數據處理 | ||
| 定價 | 29.00 | |
| 齣版社 | 機械工業齣版社 | |
| 版次 | 第1版第1次印刷 | |
| 齣版時間 | 2014年05月 | |
| 開本 | 大32開 | |
| 作者 | (美)凱洛 著,餘璜 張磊 譯 | |
| 裝幀 | 平裝 | |
| 頁數 | 114 | |
| 字數 | --- | |
| ISBN編碼 | 9787111463115 | |
Spark是一個開源的通用並行分布式計算框架,由加州大學伯剋利分校的AMP實驗室開發,支持內存計算、多迭代批量處理、即席查詢、流處理和圖計算等多種範式。Spark內存計算框架適閤各種迭代算法和交互式數據分析,能夠提升大數據處理的實時性和準確性,現已逐漸獲得很多企業的支持,如阿裏巴巴、百度、網易、英特爾等公司。
本書係統講解Spark的使用方法,包括如何在多種機器上安裝Spark,如何配置一個Spark集群,如何在交互模式下運行第一個Spark作業,如何在Spark集群上構建一個生産級的脫機/獨立作業,如何與Spark集群建立連接和使用SparkContext,如何創建和保存RDD(彈性分布式數據集),如何用Spark分布式處理數據,如何設置Shark,將Hive查詢集成到你的Spark作業中來,如何測試Spark作業,以及如何提升Spark任務的性能。
譯者序
作者簡介
前言
第1章 安裝Spark以及構建Spark集群
1.1 單機運行Spark
1.2 在EC2上運行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通過SSH部署集群
1.8 鏈接和參考
1.9 小結
第2章 Sparkshell的使用
2.1 加載一個簡單的text文件
2.2 用Sparkshell運行邏輯迴歸
2.3 交互式地從S3加載數據
2.4 小結
第3章 構建並運行Spark應用
3.1 用sbt構建Spark作業
3.2 用Maven構建Spark作業
3.3 用其他工具構建Spark作業
3.4 小結
第4章 創建SparkContext
4.1 Scala
4.2 Java
4.3 Java和Scala共享的API
4.4 Python
4.5 鏈接和參考
4.6 小結
第5章 加載與保存數據
5.1 RDD
5.2 加載數據到RDD中
5.3 保存數據
5.4 連接和參考
5.5 小結
第6章 操作RDD
6.1 用Scala和Java操作RDD
6.2 用Python操作RDD
6.3 鏈接和參考
6.4 小結
第7章 Shark-Hive和Spark的綜閤運用
7.1 為什麼用HiveShark
7.2 安裝Shark
7.3 運行Shark
7.4 加載數據
7.5 在Spark程序中運行HiveQL查詢
7.6 鏈接和參考
7.7 小結
第8章 測試
8.1 用Java和Scala測試
8.2 用Python測試
8.3 鏈接和參考
8.4 小結
第9章 技巧和竅門
9.1 日誌位置
9.2 並發限製
9.3 內存使用與垃圾迴收
9.4 序列化
9.5 IDE集成環境
9.6 Spark與其他語言
9.7 安全提示
9.8 郵件列錶
9.9 鏈接和參考
9.10 小結
Holden Karau 資深軟件開發工程師,現就職於Databricks公司,之前曾就職於榖歌、亞馬遜、微軟和Foursquare等著名公司。他對開源情有獨鍾,參與瞭許多開源項目,如Linux內核無綫驅動、Android程序監控、搜索引擎等,對存儲係統、推薦係統、搜索分類等都有深入研究。
譯者簡介
餘璜 阿裏巴巴核心係統研發工程師,OceanBase核心開發人員,對分布式係統理論和工程實踐有深刻理解,專注於分布式係統設計、大規模數據處理,樂於分享,在CSDN上分享瞭大量技術文章。
張磊 Spark愛好者,曾參與分布式OLAP數據庫係統核心開發,熱衷於大數據處理、分布式計算。
從實用角度係統講解Spark的數據處理工具及使用方法
手把手教你充分利用Spark提供的各種功能,快速編寫高效分布式程序
第1章 安裝Spark以及構建
Spark集群
1.1 單機運行Spark
1.2 在EC2上運行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通過SSH部署集群
1.8 鏈接和參考
1.9 小結
本章將詳細介紹搭建Spark的常用方法。Spark的單機版便於測試,同時本章也會提到通過SSH用Spark的內置部署腳本搭建Spark集群,使用Mesos、Yarn或者Chef來部署Spark。對於Spark在雲環境中的部署,本章將介紹在EC2(基本環境和EC2MR)上的部署。如果你的機器或者集群中已經部署瞭Spark,可以跳過本章直接開始使用Spark編程。
不管如何部署Spark,首先得獲得Spark的一個版本,截止到寫本書時,Spark的最新版本為0.7版。對於熟悉github的程序員,則可以從git://github.com/mesos/spark.git直接復製Spark項目。Spark提供基本源碼壓縮包,同時也提供已經編譯好的壓縮包。為瞭和Hadoop分布式文件係統(HDFS)交互,需要在編譯源碼前設定相應的集群中所使用的Hadoop版本。對於0.7版本的Spark,已經編譯好的壓縮包依賴的是1.0.4版本的Hadoop。如果想更深入地學習Spark,推薦自己編譯基本源碼,因為這樣可以靈活地選擇HDFS的版本,如果想對Spark源碼有所貢獻,比如提交補丁,自己編譯源碼是必須的。你需要安裝閤適版本的Scala和與之對應的JDK版本。對於Spark的0.7.1版本,需要Scala 2.9.2或者更高的Scala 2.9版本(如2.9.3版)。在寫本書時,Linux發行版Ubuntu的LTS版本已經有Scala 2.9.1版,除此之外,最近的穩定版本已經有2.9.2版。Fedora 18已經有2.9.2版。Scala官網上的最新版在選擇Spark支持的Scala版本十分重要,Spark對Scala的版本很敏感。.........
這本書的封麵設計非常吸引人,簡潔大方,直接點齣瞭核心關鍵詞“Spark”和“快速數據處理”。我一直對大數據技術很感興趣,但又覺得很多資料過於理論化,缺乏實操性。看到這本書的副標題“係統講解Spark的數據處理工具及使用方法,為快速編寫高效分布式程序”,我立刻就被吸引瞭。我希望這本書能像它名字一樣,深入淺齣地講解Spark的核心概念和常用組件,並且最重要的是,提供大量實際的代碼示例和場景應用,讓我能夠真正學會如何利用Spark來處理大規模數據,而不是停留在紙上談兵。尤其期待它能在分布式程序的編寫方麵有所突破,解決我在實際開發中遇到的性能瓶頸和並發問題。
評分作為一個在數據分析領域摸爬滾打多年的老兵,我一直都在尋找能夠提升效率的工具。Spark的名聲在外,但一直沒有找到一本真正讓我覺得“上手”的書。很多關於Spark的書籍,要麼過於偏重理論,要麼代碼示例陳舊,要麼講解不夠清晰。我對這本書的期望是,它能夠提供一套係統性的學習路徑,從Spark的架構原理講起,然後逐步深入到RDD、DataFrame、Spark SQL、Spark Streaming等核心模塊,並重點突齣如何在實際項目中應用這些技術。我希望它能包含一些常見的數據處理場景,比如ETL、實時分析、機器學習等,並提供相應的Spark解決方案,讓讀者能夠快速遷移到Spark的生態係統中。
評分我是一名剛剛接觸大數據開發的初學者,對Spark充滿瞭好奇,但也有些畏懼。聽說Spark是一個功能強大但學習麯綫比較陡峭的技術。這本書的名稱讓我眼前一亮,特彆是“快速”、“高效”這些詞語,讓我覺得它可能就是我需要的入門指南。我希望這本書能夠用通俗易懂的語言,解釋Spark的基本原理,並且通過大量的圖示和實例,幫助我理解Spark的工作流程。我特彆希望能看到一些關於如何配置Spark環境、如何編寫第一個Spark程序、以及如何進行基本的性能調優的章節。如果能有一些關於Spark在不同業務場景下的應用案例,那就更好瞭,這樣我能對Spark的實際價值有一個更直觀的認識。
評分這本書的齣現,無疑是給像我一樣渴望掌握Spark技術的開發者注入瞭一劑強心針。市麵上關於Spark的書籍不少,但往往內容冗雜,重點不明。我非常欣賞這本書的命名方式,直接點齣“快速”和“高效”,這正是我對Spark的期待。我希望這本書能夠深入剖析Spark的核心機製,例如其內存計算的優勢、容錯機製的原理,以及如何通過API高效地操作數據。更重要的是,我期待它能提供實用的分布式程序編寫技巧,包括如何設計閤理的作業、如何進行並行化處理、以及如何避免常見的性能陷阱。如果書中還能包含一些關於Spark生態係統中其他重要組件(如HDFS、Hive、Yarn)的集成和使用方法,那就更能滿足我全麵的學習需求。
評分我是一名對Spark技術充滿熱情但又常常被其復雜性所睏擾的讀者。這本書的標題,特彆是“係統講解”和“快速編寫高效分布式程序”,讓我看到瞭希望。我非常看重這本書的“係統性”,希望它能循序漸進地引導我理解Spark的方方麵麵,從基礎概念到高級特性,無所不包。同時,“快速”和“高效”更是我的痛點,我希望能通過這本書學到切實可行的方法,優化我的Spark程序,讓它們在處理海量數據時能夠遊刃有餘,避免不必要的等待和資源浪費。我尤其期待書中能有關於Spark內存管理、任務調度、數據分區等方麵的深入講解,以及如何根據具體業務場景選擇最閤適的Spark API和優化策略。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有