編輯推薦
考慮大數據技術背景,本書結閤實際用例介紹瞭應用Apache Storm和Apache Spark進行實時大數據分析的實現過程,為讀者提供瞭快速設計、應用和部署實時分析所需的技術。
內容簡介
本書詳細闡述瞭實時大數據分析的實現過程,主要包括大數據技術前景及分析平颱;熟悉Storm平颱;用Storm處理數據;Trident介紹和Storm性能優化;熟悉Kinesis;熟悉Spark;RDD編程;Spark的SQL查詢引擎;Spark Streaming分析流數據以及Lambda架構等內容。此外,本書還提供瞭相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。
本書適閤作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學教材和參考手冊。
目錄
目 錄
第1章 大數據技術前景及分析平颱 1
1.1 大數據的概念 1
1.2 大數據的維度範式 2
1.3 大數據生態係統 3
1.4 大數據基礎設施 4
1.5 大數據生態係統組件 5
1.5.1 構建業務解決方案 8
1.5.2 數據集處理 8
1.5.3 解決方案實施 8
1.5.4 呈現 9
1.6 分布式批處理 9
1.7 分布式數據庫(NoSQL) 13
1.7.1 NoSQL數據庫的優勢 15
1.7.2 選擇NoSQL數據庫 16
1.8 實時處理 16
1.8.1 電信或移動通信場景 17
1.8.2 運輸和物流 17
1.8.3 互聯的車輛 18
1.8.4 金融部門 18
1.9 本章小結 18
第2章 熟悉Storm 19
2.1 Storm概述 19
2.2 Storm的發展 20
2.3 Storm的抽象概念 22
2.3.1 流 22
2.3.2 拓撲 22
2.3.3 Spout 23
2.3.4 Bolt 23
2.3.5 任務 24
2.3.6 工作者 25
2.4 Storm的架構及其組件 25
2.4.1 Zookeeper集群 25
2.4.2 Storm集群 25
2.5 如何以及何時使用Storm 27
2.6 Storm的內部特性 32
2.6.1 Storm的並行性 32
2.6.2 Storm的內部消息處理 34
2.7 本章小結 36
第3章 用Storm處理數據 37
3.1 Storm輸入數據源 37
3.2 認識Kafka 38
3.2.1 關於Kafka的更多知識 39
3.2.2 Storm的其他輸入數據源 43
3.2.3 Kafka作為輸入數據源 46
3.3 數據處理的可靠性 47
3.3.1 錨定的概念和可靠性 49
3.3.2 Storm的acking框架 51
3.4 Storm的簡單模式 52
3.4.1 聯結 52
3.4.2 批處理 53
3.5 Storm的持久性 53
3.6 本章小結 58
第4章 Trident概述和Storm性能優化 59
4.1 使用Trident 59
4.1.1 事務 60
4.1.2 Trident 拓撲 60
4.1.3 Trident操作 61
4.2 理解LMAX 65
4.2.1 內存和緩存 66
4.2.2 環形緩衝區—粉碎器的心髒 69
4.3 Storm的節點間通信 72
4.3.1 ZeroMQ 73
4.3.2 Storm的ZeroMQ配置 74
4.3.3 Netty 74
4.4 理解Storm UI 75
4.4.1 Storm UI登錄頁麵 75
4.4.2 拓撲首頁 78
4.5 優化Storm性能 80
4.6 本章小結 83
第5章 熟悉Kinesis 84
5.1 Kinesis架構概述 84
5.1.1 Amazon Kinesis的優勢和用例 84
5.1.2 高級體係結構 86
5.1.3 Kinesis的組件 87
5.2 創建Kinesis流服務 90
5.2.1 訪問AWS 90
5.2.2 配置開發環境 91
5.2.3 創建Kinesis流 93
5.2.4 創建Kinesis流生産者 97
5.2.5 創建Kinesis流消費者 102
5.2.6 産生和消耗犯罪警報 102
5.3 本章小結 105
第6章 熟悉Spark 106
6.1 Spark概述 107
6.1.1 批量數據處理 107
6.1.2 實時數據處理 108
6.1.3 一站式解決方案Apache Spark 110
6.1.4 何時應用Spark—實際用例 112
6.2 Spark的架構 114
6.2.1 高級架構 114
6.2.2 Spark擴展/庫 116
6.2.3 Spark的封裝結構和API 117
6.2.4 Spark的執行模型—主管-工作者視圖 119
6.3 彈性分布式數據集(RDD) 122
6.4 編寫執行第一個Spark程序 124
6.4.1 硬件需求 125
6.4.2 基本軟件安裝 125
6.4.3 配置Spark集群 127
6.4.4 用Scala編寫Spark作業 129
6.4.5 用Java編寫Spark作業 132
6.5 故障排除提示和技巧 133
6.5.1 Spark所用的端口數目 134
6.5.2 類路徑問題—類未找到異常 134
6.5.3 其他常見異常 134
6.6 本章小結 135
第7章 使用RDD編程 136
7.1 理解Spark轉換及操作 136
7.1.1 RDD API 137
7.1.2 RDD轉換操作 139
7.1.3 RDD功能操作 141
7.2 編程Spark轉換及操作 142
7.3 Spark中的持久性 157
7.4 本章小結 159
第8章 Spark的SQL查詢引擎——Spark SQL 160
8.1 Spark SQL的體係結構 161
8.1.1 Spark SQL的齣現 161
8.1.2 Spark SQL的組件 162
8.1.3 Catalyst Optimizer 164
8.1.4 SQL/Hive context 165
8.2 編寫第一個Spark SQL作業 166
8.2.1 用Scala編寫Spark SQL作業 166
8.2.2 用Java編寫Spark SQL作業 170
8.3 將RDD轉換為DataFrame 173
8.3.1 自動化過程 174
8.3.2 手動過程 176
8.4 使用Parquet 179
8.4.1 在HDFS中持久化Parquet數據 182
8.4.2 數據分區和模式演化/閤並 185
8.5 Hive錶的集成 186
8.6 性能調優和最佳實踐 190
8.6.1 分區和並行性 191
8.6.2 序列化 191
8.6.3 緩存 192
8.6.4 內存調優 192
8.7 本章小結 194
第9章 用Spark Streaming分析流數據 195
9.1 高級架構 195
9.1.1 Spark Streaming的組件 196
9.1.2 Spark Streaming的封裝結構 198
9.2 編寫第一個Spark Streaming作業 200
9.2.1 創建流生成器 201
9.2.2 用Scala編寫Spark Streaming作業 202
9.2.3 用Java編寫Spark Streaming作業 205
9.2.4 執行Spark Streaming作業 207
9.3 實時查詢流數據 209
9.3.1 作業的高級架構 209
9.3.2 編寫Crime生産者 210
9.3.3 編寫Stream消費者和轉換器 212
9.3.4 執行SQL Streaming Crime分析器 214
9.4 部署和監測 216
9.4.1 用於Spark Streaming的集群管理器 216
9.4.2 監測Spark Streaming應用程序 218
9.5 本章小結 219
第10章 介紹Lambda架構 220
10.1 什麼是Lambda架構 220
10.1.1 Lambda架構的需求 220
10.1.2 Lambda架構的層/組件 222
10.2 Lambda架構的技術矩陣 226
10.3 Lambda架構的實現 228
10.3.1 高級架構 229
10.3.2 配置Apache Cassandra和Spark 230
10.3.3 編寫自定義生産者程序 233
10.3.4 編寫實時層代碼 235
10.3.5 編寫批處理層代碼 238
10.3.6 編寫服務層代碼 239
10.3.7 執行所有層代碼 241
10.4 本章小結 243
前言/序言
前 言
對於現代企業而言,處理過去10~20年的曆史數據並進行分析以獲得提升業務的洞見是當今最為熱門的用例。
企業過去曾執迷於數據倉庫的開發。通過這些數據倉庫,企業努力從每個可能的數據源獲取數據並存儲下來,再利用各種商業智能工具對數據倉庫中存儲的數據進行分析。但是開發數據倉庫是一個復雜、耗時和大開銷的過程,需要相當程度的資金和時間投入。
Hadoop及其生態係統的湧現無疑為海量大數據問題的處理提供瞭一種新的方法或架構,通過這種低成本、可伸縮的解決方案,過去需要數天時間處理的成TB數據將在幾小時內被處理完畢。盡管有著這樣的優勢,在其他一些需要實時或準實時(如亞秒級服務等級協議SLA)執行分析及獲得業務洞見的應用場景中,Hadoop還是麵臨著批處理性能方麵的挑戰。這類應用需求可稱為實時分析(RTA)或準實時分析(NRTA),有時又被稱為“快數據”,後者意味著做齣準實時決策的能力,即要在有限的商務決策時間內提供卓有成效的數據支持。
為應對這些企業實時數據分析的應用場景,齣現瞭一些高性能、易於使用的開源平颱。Apache Storm和Apache Spark是其中最為引人注目的代錶性平颱,能夠為廣大相關用戶提供實時數據處理和分析功能。這兩個項目都歸屬於Apache軟件基金會。盡管有部分功能重疊,這兩個工具平颱仍保持著各自的特色和不同功能。
考慮到以上的大數據技術背景,本書結閤實際用例介紹瞭應用Apache Storm和Apache Spark進行實時大數據分析的實現過程,為讀者提供瞭快速設計、應用和部署實時分析所需的技術。
本書內容
第1章“大數據技術前景及分析平颱”奠定瞭全書的知識背景,主要包括大數據前景的綜述、大數據平颱上采用的各種數據處理方法、進行數據分析所用的各種平颱。本章也介紹瞭實時或準實時批量分布式處理海量數據的範式。此外,還涉及處理高速/高頻數據讀寫任務的分布式數據庫。
第2章“熟悉Storm”介紹瞭實時/準實時數據處理框架Apache Storm的概念、架構及編程方法。這裏涉及多種Storm的基本概念,諸如數據源(spouts)、數據流處理組件(bolts)、並行度(parallelism)等。本章還以豐富的應用場景及範例說明如何利用Storm進行實時大數據分析。
第3章“用Storm處理數據”著重於介紹Apache Storm中用於處理實時或準實時數據流的內部操作,如過濾(filters)、連接(joins)、聚閤(aggregators)等。這裏展示瞭Storm對Apache Kafka、網絡通信接口、文件係統等多種輸入數據源的集成,最後利用Storm JDBC框架將處理過的數據保存起來。本章還提到Storm中多種企業關注的數據流處理環節,諸如可靠性、消息獲取等。
第4章“Trident概述和Storm性能優化”驗證瞭實時或準實時事務數據的處理。這裏介紹瞭實時處理框架Trident,它主要用於處理事務數據。在此提到使用Trident處理事務應用場景的幾種架構。這一章還提到多種概念和可用參數,進而探討瞭它們對Storm框架與其任務的監測、優化以及性能調整諸方麵的可用性。本章還涉及LMAX、環形緩衝區、ZeroMQ等Storm內部技術。
第5章“熟悉Kinesis”提到瞭在雲上可用的實時數據處理技術Kinesis,此技術是亞馬遜雲計算平颱AWS中的實時數據處理服務。這裏先說明瞭Kinesis的架構和組成部分,接著用一個端到端的實時報警發生範例闡明瞭Kinesis的用法,其中使用到KCL、KPL等客戶端庫。
第6章“熟悉Spark”介紹瞭Apache Spark的基礎知識,其中包括Spark程序的高級架構和構建模塊。這裏先從Spark的縱覽開始,接著提到瞭Spark在各種批處理和實時用戶場景中的應用情況。這一章還深入講到Spark的高級架構和各種組件。在本章的最後部分討論瞭Spark集群的安裝、配置以及第一個Spark任務的執行實現。
第7章“使用RDD編程”對Spark RDD進行瞭代碼級的預排。這裏說明瞭RDD API提供的各種編程操作支持,以便於使用者輕鬆實現數據轉換和保存操作。在此還闡明瞭Spark對如Apache Cassandra這樣的NoSQL數據庫的集成。
第8章“Spark的SQL查詢引擎——Spark SQL”介紹瞭Spark SQL,這是一個和Spark協同工作的SQL風格的編程接口,可以幫助讀者將Parquet或Hive這樣的數據集快速應用到工作中,並支持通過DataFrame或原始SQL語句構建查詢。本章同時推薦瞭一些Spark數據庫的最佳實踐案例。
第9章“用Spark Streaming分析流數據”介紹瞭Spark的又一個擴展工具Spark Streaming,用於抓取和處理實時或準實時的流數據。這裏順承著Spark架構簡明扼要地描述瞭Spark Streaming中用於數據加載、轉換、持久化等操作的各種應用編程接口。為達成實時查詢數據,本章將Spark SQL和Spark Streaming進行瞭深入集成。本章最後討論瞭Spark Streaming任務部署和監測等方麵的內容。
第10章“介紹Lambda架構”引領讀者認識瞭新興的Lambda架構,這個架構可以將實時和預計算的批量數據結閤起來組成一個混閤型的大數據處理平颱,從其中獲得對數據的準實時理解。本章采用瞭Apache Spark並討論瞭Lambda架構在實際應用場景中的實現。
本書閱讀基礎
本書的讀者最好擁有Java或Scala語言的編程經驗,對Apache Hadoop等代錶性分布式計算平颱的基礎知識亦有一定瞭解。
本書適用讀者
本書主要麵嚮應用開源技術進行實時分析應用和框架開發的大數據架構師、開發者及程序員群體。這些有實力的開發者閱讀本書時可以運用Java或Scala語言的功底來進行高效的核心要素和應用編程實現。
本書會幫助讀者直麵不少大數據方麵的難點及挑戰。書裏不但包括應用於實時/準實時流數據及高頻采集數據處理分析的大量工具和技術,而且涵蓋瞭Apache Storm、Apache Spark、Kinesis等各種工具和技術的內存分布式計算範式。
本書約定
本書應用瞭一些文本格式以區分不同類型的信息。以下是這些文本格式範例和含義說明。
文中的代碼、數據庫錶名稱、文件目錄名稱、文件名、文件擴展名、路徑名、僞URL、用戶輸入以及推特用戶定位采用如下方式錶示:
“The PATH variable should have the path to Python installation on your machine.”
代碼塊則通過下列方式設置:
public class Count implements CombinerAggregator {
@Override
public Long init(TridentTuple tuple) {
return 1L;
}
命令行輸入和輸齣的顯示方式如下所示:
> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
圖標錶示警告提醒或重要的概念。
圖標錶示提示或相關操作技巧。
讀者反饋
歡迎讀者對本書反饋意見或建議,以便於我們進一步瞭解讀者的閱讀喜好。反饋意見對於我們十分重要,便於我方日後工作的改進。
讀者可將這些反饋內容發送郵件到feedback@packtpub.com,建議以書名作為郵件標題。
若讀者針對某項技術具有專傢級的見解,抑或計劃撰寫書籍或完善某部著作的齣版工作,則可閱讀www.packtpub.com/authors中的author guide一欄。
客戶支持
感謝您購買本社齣版圖書,我們將竭誠對每一名讀者提供周到的客戶服務支持。
示例源碼下載
讀者可訪問http://www.packtpub.com登錄您的賬戶下載本書中的示例代碼文件。無論以何種方式購買本書,都可以訪問http://www. packtpub.com/support,注冊後相關文件會以電子郵件方式直接發送給您。
讀者還可經由以下步驟下載源碼文件:
(1)通過電子郵件加密碼方式注冊登錄我們的網站。
(2)用鼠標切換上方的Support(支持)標簽頁麵。
(3)單擊Code Downloads & Errata(源碼下載和勘誤錶)。
(4)在搜索框輸入書名。
(5)在搜索結果列錶中選擇希望下載源碼的圖書項。
(6)在所購圖書的下拉菜單中進行選擇。
(7)單擊Code Download(源碼下載)菜單。
文件下載到本地計算機之後,請使用下列軟件的最新版本將文件內容解壓到文件夾:
? Windows操作係統下的WinRAR或7-Zip軟件
? Mac操作係統下的Zipge或iZip或UnRarX軟件
? Linux操作係統下的7-Zip或Peazip軟件
勘誤錶
盡管我們努力爭取做到盡善盡美,書中錯誤依然在所難免。如果讀者發現謬誤之處,無論是文字錯誤抑或是代碼錯誤,都歡迎您不吝賜教。對於其他讀者以及本書的再版工作,這將具有十分重要的意義。對此,讀者可訪問http://www.packtpub.com/submit-errata,選取對應書籍,單擊Errata Submission Form鏈接,並輸入相關問題的詳細內容。經確認後,輸入內容將被提交至網站,或添加至現有勘誤錶中(位於該書籍的E
實時大數據分析:基於Storm、Spark技術的實時應用 epub pdf mobi txt 電子書 下載 2025
實時大數據分析:基於Storm、Spark技術的實時應用 下載 epub mobi pdf txt 電子書