YL13743 9787111589266 9787115443304
本書詳細介紹瞭數據科學項目的三個階段。準備階段進行信息收集;構建階段將計劃付諸行動,利用準備階段獲得的信息以及相關統計和軟件提供的可用工具來構建産品;交付階段進行産品的交付、反饋及修改等。本書在介紹過程中會教你如何預見問題以及如何處理不確定性,一步步引導你完成軟件和科學思維的佳實踐。
本書贊譽
中文版序
中文版序二
譯者序
前言
緻謝
關於本書
關於原書封麵插圖
第一部分 準備和收集數據與知識
第1章 數據科學的邏輯 2
1.1 數據科學與本書 4
1.2 意識的可貴 7
1.3 研發人員與數據科學傢 9
1.4 需要成為軟件研發者嗎 12
1.5 需要明白統計學嗎 13
1.6 優先級:知識、技術、觀點 14
1.7 最佳實踐 17
1.8 閱讀本書:我怎麼討論概念 23
小結 24
第2章 通過好的提問設置目標 26
2.1聆聽客戶 27
2.2提齣關於數據的好問題 37
2.3用數據迴答問題 42
2.4設定目標 48
2.5計劃要有彈性 50
練習 51
小結 51
第3章 周圍的數據:虛擬的荒野 52
3.1數據作為研究對象 52
3.2數據可能存在的地方,以及如何與之交互 62
3.3數據偵察 80
3.4案例:microRNA與基因錶達 89
練習 94
小結 95
第4章 數據整理:從捕捉到馴化 96
4.1案例研究:最佳田徑錶演 97
4.2準備整理數據 101
4.3技巧與工具 109
4.4常見的陷阱 112
練習 119
小結 119
第5章 數據評估:動手檢查 120
5.1案例:安然的電子郵件數據 121
5.2描述性統計 123
5.3檢查數據的假設 130
5.4尋找特定的實體 134
5.5大概的統計分析 140
練習 147
小結 147
第二部分 構建軟件和統計産品
第6章 製訂計劃 150
6.1學到瞭什麼 152
6.2重新考慮期望和目標 158
6.3規劃 164
6.4溝通新目標 175
練習 176
小結 177
第7章 統計建模:概念與基礎 178
7.1如何看待統計 179
7.2統計學:與數據科學相關的領域 180
7.3數學 184
7.4統計模型與推理 194
7.5其他的統計方法 218
練習 227
小結 227
第8章 軟件:統計學在行動 229
8.1電子錶格和用戶圖形界麵應用 230
8.2編程 239
8.3選擇統計軟件工具 264
8.4把統計轉換成軟件 271
練習 277
小結 278
第9章 輔助軟件:更大、更快、更高效 279
9.1數據庫 280
9.2高性能計算 287
9.3雲服務 290
9.4大數據技術 293
9.5XX即服務 297
練習 298
小結 298
第10章 執行計劃:匯總 299
10.1執行計劃的訣竅 300
10.2修改計劃 308
10.3結果:知道什麼時候足夠好 310
10.4案例研究:基因活性測定協議 315
練習 328
小結 329
第三部分 整理産品結束項目
第11章 交付産品 332
11.1瞭解客戶 333
11.2交付形式 335
11.3內容 345
11.4案例:分析電子遊戲 351
練習 353
小結 353
第12章 交付後:問題與修改 354
12.1産品及其使用問題 354
12.2反饋 364
12.3産品修改 370
練習 377
小結 378
第13章 結束:項目善後 379
13.1項目善後 380
13.2從項目中學習 392
13.3展望未來 396
練習 398
小結 399
練習:案例與答案 400
(1) 概念篇:介紹當前緊密關聯的*新IT領域技術雲計算、大數據和物聯網。
(2) 大數據存儲與管理篇:介紹分布式數據存儲的概念、原理和技術,包括HDFS、HBase、NoSQL數據庫、雲數據庫。
(3) 大數據處理與分析篇:介紹MapReduce分布式編程框架、基於內存的分布式計算框架Spark、圖計算、流計算、數據可視化。
(4) 大數據應用篇:介紹基於大數據技術的推薦係統。
第一篇 大數據基礎
第1章 大數據概述 2
1.1 大數據時代 2
1.1.1 第三次信息化浪潮 2
1.1.2 信息科技為大數據時代提供
技術支撐 3
1.1.3 數據産生方式的變革促成大數據時代的來臨 5
1.1.4 大數據的發展曆程 6
1.2 大數據的概念 7
1.2.1 數據量大 7
1.2.2 數據類型繁多 8
1.2.3 處理速度快 9
1.2.4 價值密度低 9
1.3 大數據的影響 9
1.3.1 大數據對科學研究的影響 10
1.3.2 大數據對思維方式的影響 11
1.3.3 大數據對社會發展的影響 11
1.3.4 大數據對就業市場的影響 12
1.3.5 大數據對人纔培養的影響 13
1.4 大數據的應用 14
1.5 大數據關鍵技術 14
1.6 大數據計算模式 15
1.6.1 批處理計算 16
1.6.2 流計算 16
1.6.3 圖計算 16
1.6.4 查詢分析計算 17
1.7 大數據産業 17
1.8 大數據與雲計算、物聯網 18
1.8.1 雲計算 18
1.8.2 物聯網 21
1.8.3 大數據與雲計算、物聯網的關係 25
1.9 本章小結 26
1.10 習題 26
第2章 大數據處理架構Hadoop 28
2.1 概述 28
2.1.1 Hadoop簡介 28
2.1.2 Hadoop的發展簡史 28
2.1.3 Hadoop的特性 29
2.1.4 Hadoop的應用現狀 29
2.1.5 Hadoop的版本 30
2.2 Hadoop生態係統 30
2.2.1 HDFS 31
2.2.2 HBase 31
2.2.3 MapReduce 31
2.2.4 Hive 32
2.2.5 Pig 32
2.2.6 Mahout 32
2.2.7 Zookeeper 32
2.2.8 Flume 32
2.2.9 Sqoop 32
2.2.10 Ambari 33
2.3 Hadoop的安裝與使用 33
2.3.1 創建Hadoop用戶 33
2.3.2 Java的安裝 34
2.3.3 SSH登錄權限設置 34
2.3.4 安裝單機Hadoop 34
2.3.5 Hadoop僞分布式安裝 35
2.4 本章小結 37
2.5 習題 38
實驗1 安裝Hadoop 38
第二篇 大數據存儲與管理
第3章 分布式文件係統HDFS 42
3.1 分布式文件係統 42
3.1.1 計算機集群結構 42
3.1.2 分布式文件係統的結構 43
3.1.3 分布式文件係統的設計需求 44
3.2 HDFS簡介 44
3.3 HDFS的相關概念 45
3.3.1 塊 45
3.3.2 名稱節點和數據節點 46
3.3.3 第二名稱節點 47
3.4 HDFS體係結構 48
3.4.1 概述 48
3.4.2 HDFS命名空間管理 49
3.4.3 通信協議 49
3.4.4 客戶端 50
3.4.5 HDFS體係結構的局限性 50
3.5 HDFS的存儲原理 50
3.5.1 數據的冗餘存儲 50
3.5.2 數據存取策略 51
3.5.3 數據錯誤與恢復 52
3.6 HDFS的數據讀寫過程 53
3.6.1 讀數據的過程 53
3.6.2 寫數據的過程 54
3.7 HDFS編程實踐 55
3.7.1 HDFS常用命令 55
3.7.2 HDFS的Web界麵 56
3.7.3 HDFS常用Java API及應用實例 57
3.8 本章小結 60
3.9 習題 61
實驗2 熟悉常用的HDFS操作 61
第4章 分布式數據庫HBase 63
4.1 概述 63
4.1.1 從BigTable說起 63
4.1.2 HBase簡介 63
4.1.3 HBase與傳統關係數據庫的
對比分析 64
4.2 HBase訪問接口 65
4.3 HBase數據模型 66
4.3.1 數據模型概述 66
4.3.2 數據模型的相關概念 66
4.3.3 數據坐標 67
4.3.4 概念視圖 68
4.3.5 物理視圖 69
4.3.6 麵嚮列的存儲 69
4.4 HBase的實現原理 71
4.4.1 HBase的功能組件 71
4.4.2 錶和Region 71
4.4.3 Region的定位 72
4.5 HBase運行機製 74
4.5.1 HBase係統架構 74
4.5.2 Region服務器的工作原理 76
4.5.3 Store的工作原理 77
4.5.4 HLog的工作原理 77
4.6 HBase編程實踐 78
4.6.1 HBase常用的Shell命令 78
4.6.2 HBase常用的Java API及
應用實例 80
4.7 本章小結 90
4.8 習題 90
實驗3 熟悉常用的HBase操作 91
第5章 NoSQL數據庫 94
5.1 NoSQL簡介 94
5.2 NoSQL興起的原因 95
5.2.1 關係數據庫無法滿足 ..........
說實話,這本書的厚度一開始讓我有些望而卻步,但當我真正沉浸其中時,卻發現時間過得飛快。作者的敘述風格非常流暢,文字間充滿瞭對大數據領域的熱情和深刻理解。我尤其欣賞書中對於“數據即未來”這一理念的深入探討,作者不僅闡述瞭數據的重要性,更描繪瞭數據驅動的未來社會將如何發展,以及我們在其中應該扮演的角色。在技術層麵,這本書的講解非常細緻,從底層架構到上層應用,幾乎涵蓋瞭大數據領域的方方麵麵。我特彆關注瞭書中關於數據質量管理和數據倫理的部分,這兩個話題在當前越來越受到重視,作者在這方麵提供瞭很多前瞻性的觀點和實用的建議。書中還詳細介紹瞭各種大數據分析工具的使用方法,並提供瞭大量的練習題,幫助讀者鞏固所學知識。讀這本書,我感覺自己就像在與一位經驗豐富的數據科學傢對話,他的智慧和見解,讓我受益匪淺。這本書絕對是大數據領域的一本經典之作。
評分這本書的邏輯結構設計得非常閤理,從基礎概念的鋪墊,到核心技術的解析,再到實際應用的展示,層層遞進,引人入勝。作者在講解技術原理時,並沒有生硬地羅列公式和算法,而是通過生動的比喻和形象的圖解,將抽象的概念具體化,讓讀者能夠輕鬆掌握。比如,在講解分布式計算原理時,作者就用“團隊閤作”來類比,形象地解釋瞭任務分解和並行處理的過程。書中對不同數據存儲和處理技術(如HDFS、MapReduce、Spark、Hive等)的比較分析,也做得非常到位,清晰地指齣瞭它們各自的優缺點和適用場景,這對於我們在實際項目中選擇閤適的技術方案,提供瞭非常有價值的參考。此外,本書在數據分析和可視化方麵的內容也相當豐富,介紹瞭各種常用的分析方法和工具,並提供瞭如何將數據轉化為有洞察力的信息的方法。讀完這本書,我感覺自己不僅在技術層麵有瞭很大的提升,在思維方式上也受到瞭啓發,學會瞭如何用更係統、更全麵的視角來看待和解決大數據相關的問題。
評分這本書的封麵設計就很有吸引力,一種未來感和科技感撲麵而來。我當初選擇它,很大程度上也是被這個“數據即未來”的口號所吸引。現在的數據時代,誰掌握瞭數據,誰就掌握瞭未來,這絕對不是空穴來風。拿到書後,翻瞭幾頁,就感覺作者功力深厚,從宏觀層麵闡述瞭大數據的重要性,又深入淺齣地剖析瞭其技術原理。書中涉及到的概念,比如數據采集、存儲、處理、分析、可視化等等,都解釋得非常透徹。特彆是關於數據治理和數據安全的部分,在當今信息爆炸的時代,這些是至關重要的問題,作者在這方麵給齣瞭很多有價值的思考和實踐建議。我特彆欣賞書中舉的那些實際案例,很多都是來自真實世界的商業應用,讓我能更直觀地理解大數據在各個行業是如何發揮作用的,比如在金融風控、精準營銷、智能製造等領域,都提到瞭具體的解決方案和效果。這本書對於想要瞭解大數據,或者已經在從事大數據相關工作,希望提升理論和實操能力的朋友來說,絕對是一本不可多得的好書。它不僅僅是一本技術手冊,更是一本關於如何駕馭數據、創造價值的指南。
評分老實說,我一開始對這本書的期待值並沒有那麼高,抱著隨便看看的心態入手的,畢竟市麵上關於大數據的書籍太多瞭,質量參差不齊。但讀瞭幾章之後,我真的驚喜到瞭。作者的寫作風格非常接地氣,語言通俗易懂,沒有過多地堆砌那些晦澀難懂的專業術語,即使是像我這樣剛開始接觸大數據領域的人,也能很快理解其中的概念。書中對大數據技術棧的介紹,從Hadoop生態圈到Spark,再到各種數據庫和數據倉庫,都進行瞭詳細的講解,並且給齣瞭很多代碼示例,這對於想要動手實踐的讀者來說,簡直是福音。我尤其喜歡書中關於數據挖掘和機器學習的部分,講解得非常清晰,從基礎算法到高級模型,都有涉及,並且配以圖示,讓復雜的理論變得生動起來。這本書不僅僅停留在理論層麵,它還強調瞭實際應用,提供瞭大量的案例研究,涵蓋瞭電商、醫療、交通等多個領域,讓我看到瞭大數據在現實世界中的巨大潛力。讀完這本書,我感覺自己對大數據有瞭更全麵、更深入的認識,也更有信心去探索這個領域瞭。
評分我是一名在校的學生,對大數據技術充滿瞭好奇。在老師的推薦下,我閱讀瞭這本書。剛開始接觸大數據,很多概念都覺得很陌生,但這本書就像一位耐心的老師,一步一步地引導我進入這個奇妙的世界。書中對大數據産生的背景、發展曆程的介紹,讓我對大數據有瞭宏觀的認識。接著,書中對大數據核心技術,如分布式文件係統、分布式計算框架、數據倉庫、數據挖掘算法等,都進行瞭非常詳細的講解。最讓我感到驚喜的是,書中提供的很多代碼示例都非常貼近實際應用,我跟著書中的代碼,在自己的電腦上進行瞭多次實踐,不僅加深瞭對理論知識的理解,還學會瞭如何利用這些技術解決實際問題。書中還涉及瞭大數據在不同行業的應用案例,這讓我看到瞭大數據技術的廣闊前景,也更加堅定瞭自己學習大數據技術的決心。這本書不僅滿足瞭我對大數據的好奇心,更讓我對未來的學習和職業規劃有瞭更清晰的方嚮。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有