對於數據驅動型公司,設計和構建流式數據架構能夠實現實時或近實時應用,提升整個組織的效率。《流式架構:Kafka與MapR Streams數據流處理》簡明的指南講述瞭流設計中的關鍵因素(聚焦於消息層的關鍵特性)、新的消息技術 ApacheKafka 和 MapR Streams、流架構是如何支持微服務的,以及當下可供選擇的流技術:Apache Spark Streaming、Apache Flink、Apache Storm和 Apache Apex,適閤架構師、大數據科學傢及 IT 工程師閱讀。
所有連續的事件流都可以稱為數據流。對連續數據流設計和構建流式數據架構,能夠實現實時或近實時應用,提升整個組織的效率。本書以Apache Kafka 和MapRStreams為例,重點講解如何確定使用流數據的時機、如何為多用戶係統設計流式架構、為什麼要求消息傳遞層具備某些特定功能,以及為什麼需要微服務,並且描述瞭目前*符閤流式設計需求的消息傳遞和流分析工具,適閤架構師、大數據科學傢及IT工程師閱讀。
TedDunning,MapRTechnologies首席應用架構師,開源社區的活躍成員。現任ApacheFoundation孵化器的VP,是大量項目的冠軍得主和導師,也是ApacheZooKeeper和Drill項目的貢獻者和PMC成員。
EllenFriedman,解決方案谘詢師,著名演講者和作傢,目前主要撰寫大數據方麵的著作。她是ApacheDrill和ApacheMahout項目的貢獻者。
譯者簡介
唐李洋,博士,研究方嚮為雲計算、並行計算、數據挖掘與分析等。曾經在Cisco從事過數據架構方麵的設計與分析工作。
目錄
第1 章 為什麼使用流 1
飛機、火車和汽車:車聯網和物聯網 3
流數據:這纔是現實世界 6
什麼時候需要流 8
不止是實時:流架構的更多優勢 11
流架構的最佳實踐 13
醫療數據流案例 14
流數據:架構設計的核心 17
第2 章 流式架構 19
狹義視角:實時應用 20
通用流式架構的關鍵問題 21
消息傳遞技術的重要性 24
實時分析工具 28
Apache Storm 30
Apache Spark Streaming 31
Apache Flink 32
Apache Apex 33
流分析功能比較 33
小結 36
第3 章 流架構:微服務的理想平颱 37
為什麼需要微服務 38
微服務需要哪些支撐 41
關於微服務的更多詳情 42
設計流架構:以在綫視頻服務為例 45
新設計:支持消息傳遞的基礎設施 47
通用微架構的重要性 49
命名問題 50
為什麼使用分布式文件和NoSQL 數據庫 52
視頻服務的新設計 52
小結:綜閤平颱視角 54
第4 章 使用Kafka 進行流傳輸 57
Kafka 的動機 57
Kafka 的創新 58
Kafka 的基本概念 60
排序 61
持久化 62
Kafka API 62
KafkaProducer API 63
KafkaConsumer API 66
遺留API 70
Kafka 實用程序 71
負載均衡 71
鏡像 72
Kafka 的陷阱 73
産品環境下的Kafka 73
主題和分區的數目有限 74
手動均衡分區負載 75
沒有固有的序列化機製 76
鏡像的不足 77
小結 78
第5 章 MapR Streams 79
MapR Streams 的創新 79
MapR 流係統的曆史和情境 82
MapR Streams 的工作原理 84
配置MapR Streams 86
地理分布式復製 89
MapR Streams 的陷阱 91
第6 章 基於流數據的欺詐檢測 ..93
刷卡速度 94
快速響應決策:“這是欺詐嗎” 95
多用途流數據 98
欺詐檢測器的嚮上擴展 99
小結 101
第7 章 地理分布式數據流 103
利益相關者 104
設計目標 106
設計選擇 106
我們的設計 108
數據 108
控製誰能訪問流數據 109
基於流的地理分布式復製的優勢 .110
第8 章 總結 113
流式架構的優勢 115
過渡到流架構 116
小結 119
附錄A 附加資源 121
作者簡介 125
使用和處理連續數據流的能力,是一項極具競爭力的優勢。因此,能夠利用流數據,逐漸成為構建數據驅動型組織的一個重要條件。流數據的廣泛使用引發瞭如何進行更好的係統設計纔能有效處理流數據的思考,涉及從多個數據源提取數據,以及各種不同的使用場景,包括流分析和持久化問題。流架構設計的最佳實踐層齣不窮,甚至會讓我們目瞪口呆——流係統設計的範疇已經遠遠超齣服務於特定的實時或近實時應用。使用新的方法進行流設計,能夠極大地提升整個組織的效率。
目標讀者
如果你已經在使用流數據,並且希望設計齣一種能夠實現最佳性能的體係結構,或者正要探索流數據的價值,那麼這本書應該對你很有幫助。本書提供瞭很多真實案例,幫助你理解如何將這些方法應用到不同場景。此外,本書還為開發人員提供瞭示例程序的鏈接。
本書適閤非技術或技術齣身的讀者,包括商業分析師、架構師、團隊領導、數據科學傢及開發人員。
內容梗概
本書內容包括:
- - 如何確定使用流數據的時機
- - 在多用戶係統中如何更好地設計流架構
- - 為什麼這種設計要求消息傳遞層具備某些特定的功能
- - 為什麼流式架構支持微服務
- - 最符閤流設計需求的消息傳遞和流分析工具的描述
第1~3 章闡述瞭流和微服務架構的基本知識。如果你已經對流數據的業務目標很熟悉,可以直接從第2 章開始讀,第2 章描述瞭我們推薦的適閤流係統的架構。
我們不僅解釋瞭流架構最佳實踐所需的能力,還介紹瞭一些目前能夠滿足這些要求的技術。第4 章詳細講述Apache Kafka,並提供瞭示例代碼鏈接。第5 章介紹另一種更適閤消息傳遞的技術,即MapR Streams,它使用Apache Kafka API,但提供的功能更多。
後麵的章節深入介紹瞭利用流數據的真實案例,並對這一激動人心的領域做齣瞭前景展望。
相關補充資料(示例代碼、練習等)在這裏下載:https://www.mapr.com/blog/getting-started-sample-programs-apache-kafka-09 以及https://www.mapr.com/blog/getting-started-sample-programsmapr-streams。
本書的目的是幫助你完成工作。一般來說,如果書中有示例代碼,你可以在自己的程序和文檔中使用這些示例代碼。隻要不是大批量復製這些代碼,都不必聯係我們請求許可。例如,藉用書中若乾塊代碼編寫程序,不需要許可;而將O’eilly 書中的例子製作成CD 售賣或發行,則需要許可。引用書中的示例代碼迴答某個問題,不需要許可;而在産品文檔中大量使用示例代碼,則需要許可。
我們非常希望你能在引用本書內容時標明齣處,但並不強求。齣處一般包含有書名、作者、齣版商和ISBN。例如:“Streaming Architecture: New Designs Using Apache Kafka and MapR Streams
by Ted Dunning and Ellen Friedman (O’eilly).Copyright 2016 Ted Dunning and Ellen Friedman, 978-1-491-95392-1”
如果你覺得示例代碼的使用可能超越瞭閤理使用範圍,或者需要獲得許可,請隨時聯係我們:permissions@oreilly.com。
Safari Books Online Safari Books Online
Safari Books Online 是應需而變的數字圖書館。它同時以圖書和視頻的形式齣版世界頂級技術和商務作傢的專業作品
技術專傢、軟件開發者、Web 設計師、商務人士和創意精英都可以將Safari 在綫圖書作為他們的調研、解決問題、學習和認證的主要資料來源。
Safari Books Online 對於組織團體、政府機構和個人提供各種産品組閤和靈活的定價策略。用戶可通過一個功能完備的數據庫檢索係統訪問O’Reilly Media、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sam、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGarw-Hill、Jones & Bartlett、Course Technology 及其他數十傢齣版社的上韆種圖書、培訓視頻和正式齣版前的書稿。要瞭解更多關於Safari Books Online 的信息,請訪問我們的網站。
聯係方式
請將對本書的評價和發現的問題通過如下地址告知齣版者。
美國:
O’eilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中國:
北京市西城區西直門南大街2 號成銘大廈C 座807 室
(100035)
奧萊利技術谘詢(北京)有限公司
我們在http://bit.ly/streaming-architecture 上列齣瞭勘誤錶、示例和所有額外的信息。
要評論或者詢問關於本書的任何技術問題, 請發郵件到bookquestions@oreilly.com。
要瞭解O’eilly 更多的圖書、課程、會議和新聞,請訪問我們的網站http://www.oreilly.com。
我們的Facebook 賬號:http://facebook.com/oreilly
我們的Twitter 賬號:http://twitter.com/oreillymedia
我們的YouTube 網址:http://www.youtube.com/oreillymedia
讀者服務
輕鬆注冊成為博文視點社區用戶(www.broadview.com.cn),您即可享受以下服務:
·提交勘誤:您對書中內容的修改意見可在 提交勘誤處提交,若被采納,將獲贈博文視點社區積分(在您購買電子書時,積分可用來抵扣相應金額)。
·交流互動:在頁麵下方 讀者評論 處留下您的疑問或觀點,與我們和其他讀者一同學習交流。
頁麵入口:http://www.broadview.com.cn/31722
這本書的齣現,簡直是我在數據處理領域的一次“啓濛”!《流式架構:Kafka與MapR Streams數據流處理》這本書,以一種非常係統且全麵的方式,為我打開瞭通往流式數據處理世界的大門。作者的敘事方式非常流暢,他能夠將看似晦澀的技術概念,用最通俗易懂的語言娓娓道來,讓我聽得津津有味。 我之前對Kafka的認識,一直停留在“一個用於解耦的組件”層麵,但這本書徹底改變瞭我的看法。它深入挖掘瞭Kafka作為分布式流處理平颱的強大之處,從Topic、Partition的內部機製,到Broker的集群管理,再到Producer和Consumer的精細化配置,每一個環節都讓我茅塞頓開。作者對於Kafka的容錯機製和伸縮性的講解,更是讓我看到瞭它在構建大規模實時數據處理係統中的核心價值。而MapR Streams的部分,它在保留Kafka核心特性的同時,還提供瞭更強大的企業級功能,比如與MapR其他組件的無縫集成,這使得它在特定場景下具有獨特的優勢。 這本書的真正價值在於它不僅僅局限於某個工具的介紹,而是從整體的“流式架構”角度來審視和構建數據處理係統。作者詳細闡述瞭如何設計一個端到端的流式數據管道,從數據采集、消息隊列、流式計算,到最終的數據持久化和分析,每一個環節都進行瞭深入的探討。書中對實時分析、事件驅動架構等概念的講解,更是為我提供瞭很多新的思考維度。 我特彆欣賞書中關於流式處理中數據一緻性、去重以及低延遲處理的章節。這些都是在實際項目中常常遇到的難題,作者不僅指齣瞭問題所在,還提供瞭切實可行的解決方案和技術選型建議。MapR Streams在這些方麵也展示瞭其獨有的技術特點,讓我對如何根據具體需求選擇閤適的流式處理平颱有瞭更清晰的認識。 總而言之,這本書是一份關於流式架構和數據流處理的“聖經”。無論你是剛剛踏入大數據領域的新手,還是經驗豐富的老兵,都能從中獲益匪淺。它不僅會幫助你掌握Kafka和MapR Streams這兩個強大的工具,更重要的是,它會為你構建一個現代化、高效率、可擴展的流式數據處理係統打下堅實的基礎。這本書絕對是我近期技術閱讀清單中的佼佼者!
評分這本書簡直是我近期在技術閱讀領域的一大驚喜!《流式架構:Kafka與MapR Streams數據流處理》這本書,讓我對數據流處理這個概念有瞭從模糊到清晰的轉變。作者的寫作風格非常細膩,他不僅僅是羅列技術要點,而是用一種引人入勝的方式,帶領讀者一步步探索流式數據的奧秘。 我之前對Kafka的瞭解僅僅停留在“消息隊列”這個層麵,但這本書徹底顛覆瞭我的認知。作者深入剖析瞭Kafka的設計理念,從Broker的分布式架構、Partition的副本機製,到Producer的發送策略、Consumer的Offset管理,每一個細節都講解得淋灕盡緻。尤其讓我印象深刻的是關於Kafka的容錯和高可用性設計,這對於構建穩定可靠的數據處理係統至關重要。而MapR Streams部分,它在Kafka API兼容的基礎上,更加強調瞭其在企業級應用中的優勢,比如與MapR的Hadoop平颱深度整閤,這為那些已經使用MapR生態的用戶提供瞭更便捷的解決方案。 本書的強大之處在於它不僅關注技術工具本身,更著眼於整個流式架構的構建。作者從數據産生的源頭開始,詳細講解瞭如何設計和部署一個端到端的流式數據管道。無論是實時數據采集、消息緩衝、流式計算,還是最終的數據存儲和消費,書中都給齣瞭詳實的指導和建議。我尤其欣賞書中關於構建實時數據倉庫和數據湖的章節,它為我提供瞭很多新的思路和實踐方法。 書中對一些復雜的技術概念,比如Exactly-once語義、冪等性處理、以及流式 Join 等,都進行瞭非常深入的講解,並且提供瞭具體的代碼示例和實現思路。這對於我這種在實際項目中會遇到這些挑戰的開發者來說,簡直是雪中送炭。MapR Streams在這些方麵也提供瞭一些獨特的解決方案,讓我對不同流式處理平颱的優劣有瞭更直觀的對比。 總的來說,這是一本集理論深度、實踐指導和前沿視野於一體的優秀著作。如果你是大數據領域的新人,希望係統學習流式架構;如果你是資深開發者,希望深入理解Kafka和MapR Streams的底層原理和高級應用;又或者你是一位架構師,希望構建高性能、高可用的實時數據處理係統,那麼這本書絕對是你的不二之選。它會讓你在流式處理的世界裏,如魚得水。
評分這本書簡直是Kafka和MapR Streams的百科全書!我之前對流式架構的概念一直有點模糊,但讀完這本書,感覺豁然開朗。作者從最基礎的原理講起,非常清晰地解釋瞭什麼是流式處理,為什麼它在現代大數據時代如此重要,以及它與傳統的批處理模式有什麼根本性的區彆。我尤其喜歡書中對“事件”這個核心概念的深入剖析,它幫助我理解瞭數據是如何在實時係統中流動和被處理的。 書中的例子非常貼閤實際,讓我能夠將理論知識與實際應用相結閤。無論是構建實時的用戶行為分析係統,還是實現金融交易的實時監控,作者都給齣瞭詳實的步驟和代碼示例。我特彆對其中關於Kafka的深入講解印象深刻,從Topic、Partition、Producer、Consumer到Offset的管理,每一個環節都講得明明白白。作者並沒有停留在錶麵的API調用,而是深入到Kafka的內部機製,例如Broker的協調、Leader-Follower復製機製等等,這讓我對Kafka的穩定性和高可用性有瞭更深刻的認識。MapR Streams部分也同樣齣色,它在Kafka API兼容的基礎上,提供瞭更強大的分布式文件係統整閤能力,對於那些已經部署瞭MapR環境的用戶來說,這本書簡直是量身定做的。 這本書的另一個亮點在於它對流式架構的整體性思考。作者不僅僅是講解瞭Kafka和MapR Streams這兩個工具,更是將它們置於整個數據流處理的生態係統中進行闡述。比如,書中會討論如何將這些流式平颱與其他大數據技術,如Hadoop、Spark、Flink等進行集成,以及如何利用它們構建端到端的實時數據管道。這讓我對整個流式處理的解決方案有瞭更全麵的認知,而不是僅僅停留在某個單一的技術點上。此外,書中還涉及瞭流式處理中的一些挑戰,例如數據一緻性、延遲控製、容錯機製等,並且提供瞭相應的解決方案和最佳實踐,這些內容對於實際項目落地非常有指導意義。 我之前嘗試過一些關於Kafka的在綫教程,但總感覺碎片化,而且很多內容都隻是蜻蜓點水。這本書則不同,它就像一位經驗豐富的導師,循序漸進地引導我進入流式處理的世界。從搭建開發環境,到編寫第一個Producer和Consumer,再到實現復雜的流處理邏輯,每一個步驟都非常清晰。我尤其欣賞書中對“exactly-once”語義的討論,這是一個在分布式係統中非常關鍵但又充滿挑戰的難題,作者通過深入淺齣的講解和具體的實現方法,讓我對其有瞭更透徹的理解。MapR Streams的部分雖然我目前還不是MapR的用戶,但書中對它在企業級應用中的優勢和與Kafka的比較,也讓我對不同流式處理平颱有瞭更客觀的認識。 這是一本理論與實踐並重的佳作!書中對流式架構的描述,從數據産生的源頭到最終的消費和分析,形成瞭一個完整的閉環。作者並沒有迴避流式處理中可能遇到的復雜性,而是積極地探討如何應對。我特彆喜歡書中關於數據湖與流式處理結閤的部分,它為我構建更現代化、更實時的數據倉庫提供瞭新的思路。MapR Streams的介紹也讓我看到瞭在已經存在的MapR生態中,如何更有效地利用流式數據。總而言之,如果你對大數據、實時計算感興趣,或者正在尋找關於Kafka和MapR Streams的權威指南,這本書絕對是你的不二之選。它不僅能幫助你掌握核心技術,更能讓你理解流式架構的深層價值和應用前景。
評分這本書的標題就足夠吸引人——《流式架構:Kafka與MapR Streams數據流處理》。我一直對實時數據處理這個概念非常感興趣,但總是覺得缺乏一個係統性的指導。這本書的齣現,簡直像一股清流,讓我對流式架構有瞭全新的認識。作者非常善於將復雜的概念簡單化,通過生動形象的比喻和邏輯清晰的講解,一步步引導我走進瞭流式處理的世界。 我特彆喜歡書中對Kafka基礎知識的深入挖掘。它不僅僅是列齣API,而是深入到Kafka的設計哲學和核心原理。例如,它詳細解釋瞭ZooKeeper在Kafka集群中的作用,Topic-Partition的劃分策略如何影響並發度,以及Producer和Consumer之間的交互機製。讀完這部分,我感覺自己對Kafka的理解從“會用”提升到瞭“懂”。而MapR Streams的部分,作者也同樣給齣瞭詳實的介紹,特彆是它如何與MapR的分布式文件係統無縫集成,為企業級的大規模流數據處理提供瞭強大的支持。 本書的價值不僅僅在於技術細節的講解,更在於它所傳達的架構思想。作者不僅僅是介紹工具,更是闡述瞭構建一個完整的流式數據處理係統的思路。從數據源的接入,到消息隊列的部署,再到流式計算引擎的選擇和整閤,再到最終的數據存儲和分析,每一個環節都被作者考慮在內。書中還涉及瞭流式處理中的一些“痛點”,例如數據一緻性、冪等性處理、以及如何保證數據不丟失。作者提供的解決方案和最佳實踐,對於實際項目落地非常有價值。 我尤其欣賞書中關於數據可視化和監控的內容。在流式處理係統中,實時監控係統的運行狀態和數據流嚮至關重要。本書提供瞭一些實用的方法和工具,可以幫助我們構建強大的監控體係,及時發現和解決潛在的問題。MapR Streams在這方麵也提供瞭一些獨有的功能,讓我對其在企業級場景下的應用潛力有瞭更深的認識。 總而言之,這是一本我願意反復閱讀並時常翻閱的寶典。它不僅為我提供瞭一個關於流式架構的完整框架,更讓我掌握瞭Kafka和MapR Streams這兩大主流工具的精髓。對於任何想要在實時數據處理領域有所建樹的開發者、架構師或者數據科學傢來說,這本書都是一份不可多得的財富。它將幫助你構建齣更具競爭力、更適應未來業務需求的數據處理係統。
評分這本書簡直是我近期遇到的關於流式架構最棒的讀物之一!作者以一種非常直觀且深入淺齣的方式,將Kafka和MapR Streams這兩個強大的數據流處理引擎呈現在讀者麵前。我一直對實時數據處理的概念感到好奇,而這本書恰好滿足瞭我的求知欲。它從最基礎的概念入手,逐步引導讀者理解流式數據是如何被捕獲、傳輸、處理和消費的。書中的圖示非常精美,而且恰到好處地幫助我理解瞭復雜的架構圖和數據流轉過程。 作者在講解Kafka的部分,讓我對其核心組件有瞭前所未有的清晰認識。從Topic、Partition的分布和管理,到Producer如何將數據高效寫入,再到Consumer如何可靠地消費數據,每一個細節都經過瞭細緻的闡述。尤其讓我印象深刻的是關於Offset的管理,這是保證數據不丟失、不重復的關鍵,作者在這方麵的講解既全麵又實用。而MapR Streams的部分,它在兼容Kafka API的基礎上,展現瞭其在企業級應用中的獨特優勢,例如與MapR的分布式文件係統的深度整閤,這對於那些在MapR環境中工作的開發者來說,簡直是福音。 讓我覺得這本書與眾不同的是,它不僅僅是工具的介紹,更是對整個流式架構理念的升華。作者不僅僅是告訴你“怎麼做”,更是告訴你“為什麼這麼做”。他深入探討瞭流式架構在現代業務場景中的重要性,比如實時推薦係統、物聯網數據分析、金融風控等等,並且通過實際案例展示瞭如何利用Kafka和MapR Streams來解決這些問題。書中關於數據管道設計、容錯機製、以及與Spark、Flink等計算框架的集成,都提供瞭寶貴的指導。 我特彆贊賞書中關於性能調優和可靠性保證的章節。在實際工作中,我們常常會遇到數據延遲、吞吐量瓶頸等問題,這本書提供瞭很多實用的技巧和策略來解決這些挑戰。例如,對於Kafka的Broker配置、Producer的ack機製、Consumer的group管理等,都有詳細的優化建議。MapR Streams在這些方麵也提供瞭自身的解決方案,讓我能夠根據實際情況做齣更優的選擇。 總而言之,這是一本能夠讓你從“知道”到“做到”的寶典。它不僅僅是理論的堆砌,更是實戰的經驗總結。對於任何想要深入瞭解流式架構,特彆是希望掌握Kafka和MapR Streams這兩大主流數據流處理工具的開發者、架構師或數據工程師來說,這本書都絕對值得擁有。它會幫助你建立起紮實的理論基礎,掌握實用的操作技巧,並為你設計和構建高性能、高可用的流式數據處理係統打下堅實的基礎。
評分應該是正版吧!領券買的,價格比當當閤適!
評分很薄很小,不推薦買,搶錢這是
評分雖然書很薄,理論也講的很淺,但總體來說還可以
評分很薄很小,不推薦買,搶錢這是
評分一本普及的書,雖然翻譯一般般
評分好
評分好薄的一本書,不過需要這方麵的隻是儲備,先備著吧。
評分好
評分希望能從裏麵學到更多的知識,加油吧,騷年
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有