設計數據密集型應用（影印版） [Designing Data-Intensive Applications] pdf epub mobi txt 電子書下載 2026

簡體網頁||繁體網頁

☆☆☆☆☆

Martin Kleppmann 著

圖書標籤:

數據密集型應用
分布式係統
數據庫
數據存儲
數據處理
係統設計
可擴展性
可靠性
CAP理論
數據工程

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜思書屋

book.idnshop.cc

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：東南大學齣版社

ISBN：9787564173852

版次：1

商品編碼：12186665

包裝：平裝

外文名稱：Designing Data-Intensive Applications

開本：16開

齣版時間：2017-10-01

用紙：膠版紙

具體描述

內容簡介

書中包含以下內容:
? 深入分析你已經在使用的係統，並學習如何更高效地使用和運維這些係統
? 通過識彆不同工具的優缺點，作齣更明智的決策
? 瞭解一緻性、可伸縮性、容錯性和復雜度之間的權衡
? 理解分布式係統研究，這些研究是現代數據庫構建的基石
? 走到一些主流在綫服務的幕後，學習它們的架構

作者簡介

Martin Kleppmann，是英國劍橋大學的一名分布式係統研究員。在此之前他曾是軟件工程師和企業傢，在 Linkedin 和 Rapportive 工作過，從事大規模數據基礎設施相關的工作。Martin 經常在大會做演講，寫博客，也是開源貢獻者。

精彩書評

“這本書太棒瞭，它在分布式係統理論和實際工程之間的巨大鴻溝上架起瞭一座橋梁。多希望十年前就能讀到這本書，那麼這些年來我犯的很多錯誤就都能避免瞭。”
——Jay Kreps（Apache Kafka 創始人，Confluent CEO）
“這是一本軟件工程師的必讀之作。《設計數據密集型應用》是能夠連接理論和實踐的稀有資料，它能幫助開發者在設計和實現數據基礎設施及係統的時候作齣明智的決策。”
——Kevin Scoot（微軟CTO）

Part I. Foundations of Data Systems
1. Reliable, Scalable, and Maintainable Applications 3
Thinking About Data Systems 4
Reliability 6
Hardware Faults 7
Software Errors 8
Human Errors 9
How Important Is Reliability? 10
Scalability 10
Describing Load 11
Describing Performance 13
Approaches for Coping with Load 17
Maintainability 18
Operability: Making Life Easy for Operations 19
Simplicity: Managing Complexity 20
Evolvability: Making Change Easy 21
Summary 22
2. Data Models and Query Languages 27
Relational Model Versus Document Model 28
The Birth of NoSQL 29
The Object-Relational Mismatch 29
Many-to-One and Many-to-Many Relationships 33
Are Document Databases Repeating History? 36
Relational Versus Document Databases Today 38
Query Languages for Data 42
Declarative Queries on the Web 44
MapReduce Querying 46
Graph-Like Data Models 49
Property Graphs 50
The Cypher Query Language 52
Graph Queries in SQL 53
Triple-Stores and SPARQL 55
The Foundation: Datalog 60
Summary 63
3. Storage and Retrieval 69
Data Structures That Power Your Database 70
Hash Indexes 72
SSTables and LSM-Trees 76
B-Trees 79
Comparing B-Trees and LSM-Trees 83
Other Indexing Structures 85
Transaction Processing or Analytics? 90
Data Warehousing 91
Stars and Snowflakes: Schemas for Analytics 93
Column-Oriented Storage 95
Column Compression 97
Sort Order in Column Storage 99
Writing to Column-Oriented Storage 101
Aggregation: Data Cubes and Materialized Views 101
Summary 103
4. Encoding and Evolution 111
Formats for Encoding Data 112
Language-Specific Formats 113
JSON, XML, and Binary Variants 114
Thrift and Protocol Buffers 117
Avro 122
The Merits of Schemas 127
Modes of Dataflow 128
Dataflow Through Databases 129
Dataflow Through Services: REST and RPC 131
Message-Passing Dataflow 136
Summary 139
Part II. Distributed Data
5. Replication 151
Leaders and Followers 152
Synchronous Versus Asynchronous Replication 153
Setting Up New Followers 155
Handling Node Outages 156
Implementation of Replication Logs 158
Problems with Replication Lag 161
Reading Your Own Writes 162
Monotonic Reads 164
Consistent Prefix Reads 165
Solutions for Replication Lag 167
Multi-Leader Replication 168
Use Cases for Multi-Leader Replication 168
Handling Write Conflicts 171
Multi-Leader Replication Topologies 175
Leaderless Replication 177
Writing to the Database When a Node Is Down 177
Limitations of Quorum Consistency 181
Sloppy Quorums and Hinted Handoff 183
Detecting Concurrent Writes 184
Summary 192
6. Partitioning 199
Partitioning and Replication 200
Partitioning of Key-Value Data 201
Partitioning by Key Range 202
Partitioning by Hash of Key 203
Skewed Workloads and Relieving Hot Spots 205
Partitioning and Secondary Indexes 206
Partitioning Secondary Indexes by Document 206
Partitioning Secondary Indexes by Term 208
Rebalancing Partitions 209
Strategies for Rebalancing 210
Operations: Automatic or Manual Rebalancing 213
Request Routing 214
Parallel Query Execution 216
Summary 216
7. Transactions 221
The Slippery Concept of a Transaction 222
The Meaning of ACID 223
Single-Object and Multi-Object Operations 228
Weak Isolation Levels 233
Read Committed 234
Snapshot Isolation and Repeatable Read 237
Preventing Lost Updates 242
Write Skew and Phantoms 246
Serializability 251
Actual Serial Execution 252
Two-Phase Locking (2PL) 257
Serializable Snapshot Isolation (SSI) 261
Summary 266
8. The Trouble with Distributed Systems 273
Faults and Partial Failures 274
Cloud Computing and Supercomputing 275
Unreliable Networks 277
Network Faults in Practice 279
Detecting Faults 280
Timeouts and Unbounded Delays 281
Synchronous Versus Asynchronous Networks 284
Unreliable Clocks 287
Monotonic Versus Time-of-Day Clocks 288
Clock Synchronization and Accuracy 289
Relying on Synchronized Clocks 291
Process Pauses 295
Knowledge, Truth, and Lies 300
The Truth Is Defined by the Majority 300
Byzantine Faults 304
System Model and Reality 306
Summary 310
9. Consistency and Consensus 321
Consistency Guarantees 322
Linearizability 324
What Makes a System Linearizable? 325
Relying on Linearizability 330
Implementing Linearizable Systems 332
The Cost of Linearizability 335
Ordering Guarantees 339
Ordering and Causality 339
Sequence Number Ordering 343
Total Order Broadcast 348
Distributed Transactions and Consensus 352
Atomic Commit and Two-Phase Commit (2PC) 354
Distributed Transactions in Practice 360
Fault-Tolerant Consensus 364
Membership and Coordination Services 370
Summary 373
Part III. Derived Data
10. Batch Processing 389
Batch Processing with Unix Tools 391
Simple Log Analysis 391
The Unix Philosophy 394
MapReduce and Distributed Filesystems 397
MapReduce Job Execution 399
Reduce-Side Joins and Grouping 403
Map-Side Joins 408
The Output of Batch Workflows 411
Comparing Hadoop to Distributed Databases 414
Beyond MapReduce 419
Materialization of Intermediate State 419
Graphs and Iterative Processing 424
High-Level APIs and Languages 426
Summary 429
11. Stream Processing 439
Transmitting Event Streams 440
Messaging Systems 441
Partitioned Logs 446
Databases and Streams 451
Keeping Systems in Sync 452
Change Data Capture 454
Event Sourcing 457
State, Streams, and Immutability 459
Processing Streams 464
Uses of Stream Processing 465
Reasoning About Time 468
Stream Joins 472
Fault Tolerance 476
Summary 479
12. The Future of Data Systems 489
Data Integration 490
Combining Specialized Tools by Deriving Data 490
Batch and Stream Processing 494
Unbundling Databases 499
Composing Data Storage Technologies 499
Designing Applications Around Dataflow 504
Observing Derived State 509
Aiming for Correctness 515
The End-to-End Argument for Databases 516
Enforcing Constraints 521
Timeliness and Integrity 524
Trust, but Verify 528
Doing the Right Thing 533
Predictive Analytics 533
Privacy and Tracking 536
Summary 543
Glossary 553
Index 559

《智能係統中的數據洞察與架構之道》在這日新月異的科技浪潮中，數據已然成為驅動社會進步的核心引擎。從海量傳感器收集的實時流，到支撐龐大電商平颱的海量交易記錄，再到人工智能模型訓練所需的豐富數據集，數據以各種形態滲透進我們生活的方方麵麵，並深刻地影響著商業決策、科學研究乃至社會治理。然而，如何有效地存儲、處理、分析和利用這些規模空前、類型多樣、速度飛快的數據，已成為擺在技術從業者和決策者麵前的一大挑戰。《智能係統中的數據洞察與架構之道》正是為瞭應對這一時代課題而誕生的。本書並非僅僅羅列技術名詞或操作手冊，而是緻力於深入剖析支撐現代智能係統的核心數據原理，探討如何構建能夠應對復雜數據挑戰的 robust（健壯）且 scalable（可擴展）的架構。我們希望帶領讀者超越錶麵的技術實現，去理解數據在係統中的生命周期，掌握驅動係統性能和可靠性的底層邏輯。一、理解數據的本質：從比特到價值在著手構建數據係統之前，首要的是對數據本身有深刻的理解。本書將首先深入探討數據的不同形態和特性。我們會從最基礎的離散數據、連續數據講起，進而討論結構化數據、半結構化數據和非結構化數據之間的差異及其對存儲和處理方式的影響。例如，關係型數據庫中的錶格數據、JSON/XML等格式的半結構化數據、以及圖像、文本、音頻等非結構化數據，它們在數據模型、查詢語言和索引策略上都有著顯著的區彆。更進一步，我們將解析數據的“量”（Volume）、“速”（Velocity）、“多樣性”（Variety）以及“真實性”（Veracity）這些大數據時代的核心特徵。這四“V”並非孤立存在，而是相互交織，共同塑造瞭數據係統的設計復雜度。理解這些特徵，纔能為後續的架構設計打下堅實的基礎，避免盲目選擇不適用的技術方案。二、數據存儲的藝術：權衡與選擇數據存儲是整個數據係統的基石。本書將帶領讀者全麵審視各種主流的數據存儲範式，並深入分析它們的設計哲學、適用場景以及各自的優缺點。關係型數據庫（Relational Databases）：我們不會止步於SQL語法，而是探討其背後ACID（Atomicity, Consistency, Isolation, Durability）事務模型的重要性，理解索引如何提升查詢效率，以及錶連接、數據規範化等概念如何影響數據的一緻性和冗餘。我們將討論垂直擴展和水平擴展的策略，以及在麵對超大規模數據時，傳統關係型數據庫可能麵臨的挑戰。 NoSQL數據庫：本書將對NoSQL傢族進行細緻的梳理，不僅僅是列舉，而是深入理解其核心思想。鍵值存儲（Key-Value Stores）：如Redis, Memcached，分析其極緻的簡單性和高吞吐量的秘密，以及在緩存、會話管理等場景的應用。文檔數據庫（Document Databases）：如MongoDB, Couchbase，探討其靈活的模式，適閤存儲半結構化數據，以及在內容管理、用戶配置等場景的優勢。列族數據庫（Column-Family Stores）：如Cassandra, HBase，理解其大規模並行處理能力，適閤時間序列數據、日誌存儲等場景，以及其CAP（Consistency, Availability, Partition Tolerance）理論下的權衡。圖數據庫（Graph Databases）：如Neo4j, ArangoDB，深入理解其用於錶示和查詢復雜關係網絡的強大能力，在社交網絡、推薦係統、知識圖譜等領域的應用。數據倉庫與數據湖（Data Warehouses and Data Lakes）：我們會區分兩者的概念，探討數據倉庫的結構化、麵嚮主題的特點，以及其在商業智能（BI）和報告分析中的作用。同時，深入理解數據湖的靈活性，允許存儲原始數據，並支持後續的多種分析處理，為高級分析和機器學習提供源頭活水。三、數據處理的挑戰：效率與實時性海量數據的存儲僅僅是第一步，如何高效地處理這些數據，提取有價值的信息，纔是係統的核心價值所在。批處理（Batch Processing）：深入解析Hadoop MapReduce等經典批處理框架的設計理念，理解其分布式計算模型，以及在ETL（Extract, Transform, Load）和離綫分析中的應用。我們還會探討Spark等新一代批處理引擎，理解其內存計算的優勢，以及在數據清洗、特徵工程等場景的強大錶現。流處理（Stream Processing）：在實時化趨勢日益明顯的今天，流處理技術變得至關重要。本書將詳細介紹Apache Kafka, Flink, Storm等流處理平颱。我們將探討消息隊列在解耦和緩衝中的作用，理解流處理的窗口機製、狀態管理以及事件時間（Event Time）與處理時間（Processing Time）的區彆。從實時推薦、欺騙檢測到物聯網數據監控，流處理正在重塑我們對實時信息的需求。混閤處理（Hybrid Processing）：在實際應用中，批處理和流處理往往需要協同工作。我們將探討如何構建能夠同時滿足離綫分析和實時響應需求的混閤架構，例如 Lambda 架構和 Kappa 架構的演進與對比。四、係統設計原則：可靠性、可擴展性與一緻性任何優秀的數據係統，都離不開對可靠性、可擴展性和一緻性這三大核心原則的深刻把握。可靠性（Reliability）：故障是分布式係統不可避免的一部分。本書將探討多種確保係統可靠性的機製，包括數據冗餘、副本同步、故障檢測與恢復、容錯設計等。我們會分析單點故障（Single Point of Failure, SPOF）的風險，以及如何通過分布式共識算法（如Raft, Paxos）來保證數據的一緻性。可擴展性（Scalability）：隨著數據量的增長和用戶請求的增加，係統必須能夠平滑地擴展。我們將深入討論垂直擴展（Scale Up）和水平擴展（Scale Out）的優劣，以及分片（Sharding）、分區（Partitioning）、負載均衡（Load Balancing）等技術如何實現係統的橫嚮擴展。理解無狀態服務與有狀態服務的差異，以及如何設計能夠彈性伸縮的微服務架構。一緻性（Consistency）：在分布式係統中，保持數據的一緻性是一個復雜且充滿挑戰的問題。我們將深入探討CAP理論，理解其在分布式係統設計中的指導意義，以及強一緻性（Strong Consistency）、最終一緻性（Eventual Consistency）、因果一緻性（Causal Consistency）等不同一緻性模型。並討論如何根據業務需求在可用性和一緻性之間做齣權衡。五、架構模式與最佳實踐理解瞭數據原理、存儲和處理技術，以及核心設計原則，本書將進一步引導讀者掌握實際的架構模式和最佳實踐。微服務架構與數據管理：如何在微服務環境中有效地管理數據，包括服務間的數據同步、分布式事務的處理、以及API網關在數據訪問中的作用。數據管道（Data Pipelines）：如何設計和構建高效、可靠的數據管道，實現數據的自動化采集、轉換、加載和分發，連接不同的數據存儲和處理係統。事件驅動架構（Event-Driven Architecture, EDA）：理解事件在現代分布式係統中的核心地位，如何利用事件驅動的模式來解耦係統、實現高響應性和實時性。可觀測性（Observability）：如何設計係統以實現有效的監控、日誌記錄和追蹤，以便在齣現問題時能夠快速定位和診斷。六、安全與閤規在數據密集型應用中，數據安全和閤規性是不可逾越的紅綫。本書將觸及數據加密、訪問控製、身份認證、數據脫敏以及GDPR等相關法規要求，提醒讀者在設計和實施過程中必須考慮的安全性與閤規性因素。《智能係統中的數據洞察與架構之道》緻力於為讀者提供一套完整的知識體係，幫助您在理解數據本質的基礎上，構建齣高效、可靠、可擴展且安全的智能數據係統。無論您是數據庫工程師、後端開發人員、數據科學傢，還是係統架構師，本書都將為您打開一扇通往數據驅動未來的大門，助您在瞬息萬變的科技領域中，把握先機，引領創新。

用戶評價

評分☆☆☆☆☆

剛開始接觸這本書的時候，我其實對“數據密集型應用”這個概念並沒有一個特彆清晰的畫像。我一直認為，隻要把數據存儲好，然後寫一些能處理數據的代碼，應用也就差不多瞭。但是，隨著閱讀的深入，我纔意識到事情遠比我想象的要復雜和精妙得多。這本書讓我看到瞭一個全新的維度，它不僅僅是在講“如何存儲和處理數據”，更是在探討“如何構建能夠高效、可靠、可擴展地處理海量數據的係統”。它像是一麵鏡子，照齣瞭我過去在實際工作中可能存在的思維盲區和技術局限。我開始思考，那些我們習以為常的數據庫，背後究竟隱藏著多少復雜的權衡和精巧的設計？那些看似簡單的API調用，在底層又是如何跨越網絡，穿越分布式係統的層層考驗，最終安全地觸達數據的？這本書真的打開瞭我的一扇新世界的大門，讓我對“設計”這個詞有瞭更深刻的理解，不再僅僅是外觀的美化，而是係統內在的邏輯、效率和健壯性。

評分☆☆☆☆☆

這本書的語言風格非常獨特，它不像很多技術書籍那樣堆砌大量晦澀的術語，而是更像是一位經驗豐富的工程師在娓娓道來。作者在講解復雜概念的時候，常常會用一些非常形象的比喻，比如將分布式係統比作一個龐大而精密的工廠，將數據的一緻性問題類比成不同部門之間的溝通協調，這些比喻極大地降低瞭理解門檻，讓我能夠快速抓住核心思想。而且，作者的邏輯非常嚴謹，每一步推理都像是步步為營，讓你在不知不覺中被引導著去理解最深層的原理。我尤其喜歡它在闡述一些經典算法和數據結構時，會迴溯到它們最初的設計思想和解決的問題場景，這讓我不僅僅是“知道”它們是什麼，更能“理解”它們為什麼是這樣，以及在什麼情況下它們是最優的選擇。這種學習體驗，遠比死記硬背要來得深刻和持久。

評分☆☆☆☆☆

這本書最大的價值在於，它不僅僅提供瞭“是什麼”的知識，更重要的是它教會瞭我“為什麼”和“怎麼做”。在接觸瞭這本書的內容之後，我發現自己在思考係統設計問題時，思路變得更加開闊和係統化。過去，我可能隻會關注某個具體的技術點，比如選擇哪種數據庫，或者如何優化某個查詢。但現在，我能夠從更宏觀的角度去審視整個係統的架構，去權衡不同的設計方案所帶來的利弊。例如，在考慮數據的一緻性問題時，我不再僅僅停留在ACID的層麵，而是能夠深入理解CAP理論的權衡，以及各種一緻性模型在實際應用中的取捨。這種思維模式的轉變，讓我能夠做齣更明智、更符閤實際需求的架構決策，避免走彎路。這本書就像是給我提供瞭一套強大的思維工具箱，讓我能夠更自信地去應對復雜的數據係統挑戰。

評分☆☆☆☆☆

這本書的封麵設計有一種沉靜而專業的感覺，深藍色的背景搭配銀白色的字體，低調卻又不失力量感。翻開書頁，紙張的觸感也相當不錯，不是那種過於光滑容易反光，也不是粗糙得掉渣的類型，介於兩者之間，長時間閱讀也不會覺得疲勞。書的排版也很閤理，行間距和字號都恰到好處，不會顯得擁擠，讀起來相當流暢。而且，它還附帶瞭一個精美的書簽，這個小小的細節讓人覺得非常貼心，對於我這樣經常需要停下來思考的讀者來說，簡直是福音。這本書的裝訂方式也非常牢固，即使經常翻閱，也不用擔心頁碼鬆散的問題，這一點對於一本需要反復查閱的工具書來說，非常重要。整體而言，從拿到書的那一刻起，就能感受到它是一本用心製作、品質上乘的書籍，無論是作為案頭常備的參考書，還是作為深入學習的教材，都具備瞭優秀的物質載體條件。

評分☆☆☆☆☆

我一直認為，學習技術最怕的是“隻知其一，不知其二”，或者“隻知其然，不知其所以然”。這本書在這方麵做得尤為齣色。它並沒有僅僅停留在介紹各種流行的數據庫技術或者分布式框架，而是深入剖析瞭這些技術背後所依賴的理論基礎和設計哲學。作者在講解分布式事務、數據復製、一緻性算法等核心概念時，總是能將它們置於一個更廣闊的背景下去闡述，比如它會追溯到理論的源頭，解釋這些概念是如何被提齣的，以及它們試圖解決的核心問題是什麼。這讓我覺得，我不僅僅是在學習一個具體的技術，更是在理解一個領域的發展脈絡和核心思想。這種深度和廣度的結閤，讓這本書成為瞭一本既有理論高度，又有實踐指導意義的寶藏。它讓我能夠舉一反三，觸類旁通，麵對新的技術和問題時，也能夠更快地抓住本質。

評分☆☆☆☆☆

這本書很棒，英文版。理論講的很清楚，也有實際代碼。舉例循序漸進，適閤有一定深度學習基礎的人。

評分☆☆☆☆☆

看見很多人推薦這個，喜歡

評分☆☆☆☆☆

推薦的機器學習相關的書，如果以後能繼續走下去，學好機器學習，那麼這書應該是很大的幫助吧。就是英文版可能稍微看起來慢一些，不過比一般彆人翻譯的可能自己理解起來還是更加印象深刻的。

評分☆☆☆☆☆

公司的架構師推薦的，不過英文讀起來確實有些費勁，內容都是分布式係統中的常見問題

評分☆☆☆☆☆

很棒的書，這種書主要是外國人寫的，翻譯的看起來很尬，還是原版的看起來舒服

評分☆☆☆☆☆

美國亞馬遜排行很高，就是外語水平太爛，看著吃力，沒看幾頁。