| 書[0名0]: | Greenplum企業應用實戰[按需印刷]|3770631 |
| 圖書定價: | 69元 |
| 圖書作者: | 何勇;陳曉峰 |
| 齣版社: | [1機1] 械工業齣版社 |
| 齣版日期: | 2014-10-01 0:00:00 |
| ISBN號: | 9787111481003 |
| 開本: | 16開 |
| 頁數: | 332 |
| 版次: | 1-1 |
| 作者簡介 |
| 何勇資深數據庫專傢和軟件架構師,對Greenplum、Oracle、Teradata、MySQL以及各種[0No0]SQL都有非常深入的研究,實戰經驗豐富。曾就職於阿裏巴巴和盛[0大0],從事數據庫係統架構、軟件架構和數據中心相關的工作.熟悉Peri、Python、Java、C,以及移動開發。現為杭州遙指科技有限公司聯閤創始人兼CTO。陳曉峰資深數據庫專傢和高級開發工程師,對Greenplum和PostgresQL等數據庫以及Hadoop和Storm等[0大0]數據技術有非常深入的研究和豐富的實踐經驗。曾就職於阿裏巴巴數據平颱事業部,負責數據倉庫Greenplum計算集群、報錶集群的維護及調[0優0],擔任RTDC項目和天罡項目的技術負責人,以及負責的交易直播間項目;還曾就職於阿裏巴巴小微金服集團保險事業部,負責保險事業部所有險種的核保核賠;現就職於深圳前海微眾銀行。熟悉Java、C、C++、Python,以及數據挖掘和數據分析相關技術。 |
| 內容簡介 |
| 這是[0國0]內[0首0]本Greenplum著作,[0國0]內早開始使用Greenp,um的企業是阿裏巴巴,本書的兩位作者是阿裏巴巴早負責使用和維護Greenplum的技術工程師,性毋庸置疑。本書完全立足於阿裏巴巴的企業應用實踐,不僅係統介紹Greenplum的功能特性、使用方[0法0]、高級應用,而且還詳細講解 Greenplum的係統架構、運維管理、性能[0優0]化和各種技巧。重要的是,包含[0大0]量企業級應用案例,並且對每個案例都進行瞭詳盡的講解和實操指導。 全書一共15章,分為三個部分:基礎篇([0第0] 1-3章)[0首0]先介紹瞭Greenplum的應用場景、功能特性以及與PostgreSQL的關係,然後講解瞭 Greenplum的安裝配置、語[0法0]以及相關操作,後通過兩個具體的數據倉庫ETL案例加強讀者對 Greenplum的功能特性的瞭解和操作能力;進階篇([0第0]4-7章)圍繞數據字典、執行計劃、係統架構、高級特性等主題對Greenplum進行瞭更深入的講解,不僅能讓讀者更深入理解Greenplum的工作原理,也能讓讀者遊刃有餘地應對各種日常操作;管理篇([0第0]8-15章)從運維和管理的角度講解瞭 Greenplum的綫上部署、數據庫管理、腳本維護、監控、[0權0]限控製、容災/擴容、備份恢復、性能調[0優0]、常用技巧和常見問題等。 |
| 目錄 |
《Greenplum企業應用實戰》 前言 上篇 基 礎 篇 [0第0]1章 Greenplum簡介 2 1.1 Greenplum的起源和發展曆程 2 1.2 OLTP與OLAP 3 1.3 PostgreSQL與Greenplum的關係 3 1.3.1 PostgreSQL 3 1.3.2 Greenplum 5 1.4 Greenplum特性及應用場景 6 1.4.1 Greenplum特性 6 1.4.2 Greenplum應用場景 7 1.5 小結 8 [0第0]2章 Greenplum快速入門 9 2.1 軟件安裝及數據庫初始化 9 2.1.1 Greenplum架構 9 2.1.2 環境搭建 11 2.1.3 Greenplum安裝 13 2.1.4 創建數據庫 20 2.1.5 數據庫啓動與關閉 20 2.2 安裝Greenplum的常見問題 22 2.2.1 /etc/hosts配置錯誤 22 2.2.2 MASTER_DATA_DIRECTORY設置錯誤 24 2.3 [0暢0]遊Greenplum 25 2.3.1 如何訪問Greenplum 25 2.3.2 數據庫整體概況 27 2.3.3 基本語[0法0]介紹 28 2.3.4 常用數據類型 35 2.3.5 常用函數 37 2.3.6 分析函數 43 2.3.7 分區錶 46 2.3.8 外部錶 49 2.3.9 COPY命令 51 2.4 小結 52 [0第0]3章 Greenplum實戰 53 3.1 曆[0史0]拉鏈錶 53 3.1.1 應用場景描述 53 3.1.2 原理及步驟 54 3.1.3 錶結構 55 3.1.4 Demo數據準備 57 3.1.5 數據加載 58 3.1.6 數據刷新 61 3.1.7 分區裁剪 64 3.1.8 數據導齣 64 3.2 日誌分析 65 3.2.1 應用場景描述 65 3.2.2 數據Demo 65 3.2.3 日誌分析實戰 66 3.3 數據分布 68 3.3.1 數據分散情況查看 69 3.3.2 數據加載速度影響 69 3.3.3 數據查詢速度影響 72 3.4 數據壓縮 73 3.4.1 數據加載速度影響 73 3.4.2 數據查詢速度影響 74 3.5 索引 75 3.6 小結 75 中篇 進 階 篇 [0第0]4章 數據字典詳解 78 4.1 oid無處不在 78 4.2 數據庫集群信息 80 4.2.1 Gp_configuration和gp_segment_configuration 80 4.2.2 Gp_id 82 4.2.3 Gp_configuration_history 84 4.2.4 pg_filespace_entry 84 4.2.5 集群配置信息錶轉化 84 4.3 常用數據字典 85 4.3.1 pg_class 85 4.3.2 pg_attribute 88 4.3.3 gp_distribution_policy 89 4.3.4 pg_statistic和pg_stats 90 4.4 分區錶信息 90 4.4.1 如何實現分區錶 91 4.4.2 pg_partition 91 4.4.3 pg_partition_rule 92 4.4.4 pg_partitions視圖及其[0優0]化 93 4.5 自定義類型以及類型轉換 94 4.6 主、備節點同步的相關數據字典 95 4.7 數據字典應用示例 96 4.7.1 獲取錶的字段信息 96 4.7.2 獲取錶的分布鍵 96 4.7.3 獲取一個視圖的定義 97 4.7.4 查詢comment(備注信息) 98 4.7.5 獲取數據庫建錶語句 99 4.7.6 查詢錶上的視圖 103 4.7.7 查詢錶的數據文件創建時間 104 4.7.8 分區錶總[0大0]小 106 4.7.9 如何分析數據字典變化 108 4.7.10 獲取數據庫鎖信息 111 4.8 Gp_toolkit介紹 112 4.9 小結 114 [0第0]5章 執行計劃詳解 115 5.1 執行計劃入門 115 5.1.1 什麼是執行計劃 115 5.1.2 查看執行計劃 116 5.2 分布式執行計劃概述 116 5.2.1 架構 116 5.2.2 重分布與廣播 117 5.2.3 Greenplum Master的工作 119 5.3 Greenplum執行計劃中的術語 120 5.3.1 數據掃描方式 120 5.3.2 分布式執行 121 5.3.3 兩種聚閤方式 122 5.3.4 關聯 123 5.3.5 SQL消耗 126 5.3.6 其他術語 126 5.4 數據庫統計信息收集 128 5.4.1 Analyze分析 128 5.4.2 固定執行計劃 129 5.5 控製執行計劃的參數介紹 130 5.6 規劃器開銷的計算方[0法0] 131 5.7 各種執行計劃原理分析 133 5.7.1 詳解關聯的廣播與重分布 133 5.7.2 HashAggregate與GroupAggregate 137 5.7.3 Nestloop Join 、 Hash Join 與Merge Join 141 5.7.4 分析函數:開窗函數和grouping sets 142 5.8 案例 144 5.8.1 關聯鍵強製類型轉換,導緻重分布 144 5.8.2 統計信息過期 145 5.8.3 執行計劃齣錯 145 5.8.4 分布鍵選擇不恰[0當0] 147 5.8.5 計算distinct 148 5.8.6 union與union [0all0] 150 5.8.7 子查詢[0no0]t in 152 5.8.8 聚閤函數太多導緻內存不足 154 5.9 小結 155 [0第0]6章 Greenplum高級應用 156 6.1 Appendonly錶與壓縮錶 157 6.1.1 應用場景及語[0法0]介紹 157 6.1.2 壓縮錶的性能差異 157 6.1.3 Appendonly錶特性 158 6.1.4 相關數據字典 164 6.2 列存儲 165 6.2.1 應用場景 165 6.2.2 數據文件存儲特性 166 6.2.3 如何使用列存儲 166 6.2.4 性能比較 166 6.3 外部錶高級應用 168 6.3.1 外部錶實現原理 168 6.3.2 可寫外部錶 171 6.3.3 HDFS外部錶 173 6.3.4 可執行外部錶 177 6.4 自定義函數—各個編程接口 179 6.4.1 pl/pgsql 180 6.4.2 C語言接口 182 6.4.3 plpython 185 6.5 Greenplum MapReduce 187 6.6 小結 193 [0第0]7章 Greenplum架構介紹 195 7.1 並行和分布式計算 195 7.2 並行數據庫 197 7.3 Greenplum架構分析 198 7.4 冗餘與故障切換 199 7.5 數據分布及負載均衡 200 7.6 跨庫關聯 202 7.7 分布式事務 203 7.8 其他[0大0]數據分析方案 205 7.9 小結 208 下篇 管 理 篇 [0第0]8章 Greenplum綫上環境部署 210 8.1 服務器硬件選型 210 8.1.1 CPU 211 8.1.2 內存 211 8.1.3 磁盤及硬盤接口 211 8.1.4 網絡 213 8.2 服務器係統參數調整 213 8.2.1 Solaris參數修改 214 8.2.2 Linux參數修改 216 8.2.3 係統參數及性能驗證 217 8.3 計算節點分配技巧 221 8.4 數據庫參數介紹 221 8.5 數據庫集群基準測試 225 8.6 小結 227 [0第0]9章 數據庫管理 228 9.1 用戶及[0權0]限管理 228 9.1.1 Greenplum數據庫邏輯結構 228 9.1.2 Grant語[0法0] 229 9.2 登錄[0權0]限控製 231 9.3 資源隊列及並發控製 232 9.4 Greenplum鎖 [1機1] 製 236 9.5 數據目錄結構 238 9.6 數據文件存儲分布 240 9.7 錶空間管理 241 9.8 小結 244 [0第0]10章 數據庫監控及調[0優0] 245 10.1 Linux監控工具介紹 245 10.1.1 監控磁盤 245 10.1.2 監控網絡 246 10.1.3 監控CPU 247 10.1.4 監控內存 247 10.2 安裝Performance Monitor 248 10.3 監控Segment是否正常 252 10.4 VACUUM係統錶 253 10.5 數據傾斜排查 255 10.6 查看子節點的SQL運行狀態 258 10.7 自動加分區 261 10.8 自動賦[0權0] 266 10.9 清理過期數據 266 10.10 小結 267 [0第0]11章 解讀Greenplum維護腳本 268 11.1 添加Greenplum Contrib模塊 268 11.2 啓動和關閉腳本gpstart和gpstop 270 11.3 初始化係統腳本gpinitsystem 272 11.4 集群操作腳本gpssh和gpscp 274 11.5 數據庫狀態檢查腳本gpstate 275 11.6 數據庫升級腳本gpmigrate 276 11.7 參數修改腳本gpconfig 281 11.8 數據庫一緻性檢查腳本gpcheckcat 282 11.9 小結 284 [0第0]12章 備份及恢復策略 286 12.1 Greenplum 3.x 286 12.2 Greenplum 4.x 287 12.3 gp_dump和pg_dump 290 12.4 Greenplum Master備份策略 294 12.4.1 增加Standby Master 295 12.4.2 重新同步Standby Master 296 12.4.3 啓用Standby Master 296 12.5 小結 297 [0第0]13章 數據庫擴容 299 13.1 遷移計算節點 299 13.1.1 兩種備份方案 300 13.1.2 數據遷移實戰 301 13.2 增加計算節點 306 13.3 小結 311 [0第0]14章 基於Greenplum的海量數據實時分析服務平颱 312 14.1 需求概述 312 14.2 典型方案 313 14.2.1 [0No0]SQL 313 14.2.2 分布式數據庫/集群 314 14.2.3 分錶分庫 315 14.2.4 方案[0優0]劣分析 316 14.3 基於Greenplum的混閤架構 316 14.3.1 架構分析 317 14.3.2 實施要點 317 14.4 小結 318 [0第0]15章 使用Greenplum的常見報錯及小技巧 319 15.1 分析常見報錯 319 15.1.1 找不到類型705對應的操作符 319 15.1.2 SQL占用的資源[0超0]過瞭資源隊列限製 321 15.1.3 自定義函數不能在Segment上執行 321 15.1.4 子查詢沒有加彆[0名0] 322 15.1.5 字段[0名0]有歧義 322 15.1.6 字段重[0名0] 323 15.1.7 gpfdist錯誤:無[0法0]讀取文件 323 15.1.8 事務被中止 324 15.1.9 網絡異常錯誤 324 15.1.10 無[0法0]刪除錶 324 15.1.11 內存不足 325 15.1.12 文件[0名0]在pg_class中已存在 325 15.1.13 不能對分布鍵執行Update 325 15.1.14 網絡錯誤 326 15.1.15 無[0法0]找到數據文件 326 15.2 常見問題及解決辦[0法0] 326 15.3 常用的一些小技巧 329 15.3.1 顯示SQL執行的時間 330 15.3.2 獲取某個schema下所有的錶或視圖 330 15.3.3 查找分區多的錶 330 15.3.4 連接Segment節點 331 15.3.5 psql默認密碼登錄 331 15.3.6 查看數據庫啓動時間 331 15.3.7 查看在psql中d到底查詢瞭哪些數據字典 331 15.4 小結 332 |
| 編輯推薦 |
| 阿裏巴巴資深技術工程師撰寫,完全展現阿裏巴巴的Greenplum企業實戰經驗; 係統介紹Greenplum的功能特性、使用方[0法0]、高級應用;詳細講解Greenplum的係統架構、運維管理、性能[0優0]化和各種技巧;包含[0大0]量企業級應用案例和實操指導。 更多精彩,點擊進入華章[0品0]牌店查閱>> |
這本書在實戰案例部分的呈現方式簡直是教科書級彆的範本。它不是那種空泛地羅列功能,而是構建瞭一係列具有高度代錶性的行業應用場景,比如大規模日誌分析、實時BI報錶生成,甚至是金融風控模型的數據基礎支撐。每個案例的切入點都非常精準,從需求分析、環境搭建(連同具體的配置參數都一一列齣),到數據建模、SQL編寫優化,再到最終的性能調優和監控指標的選取,整個流程描述得如同一個完整的項目實施文檔。我特彆喜歡它對性能瓶頸排查的章節,作者列齣瞭一個詳盡的故障排查清單(Checklist),涵蓋瞭從操作係統層麵到數據庫內部的各個環節,這種經驗總結是書籍齣版時最精華的部分,它直接濃縮瞭作者多年一綫踩坑的教訓。
評分總的來說,這本書的價值遠超齣瞭一個簡單的技術參考手冊。它更像是一位資深架構師將自己多年來的實戰經驗和深刻思考係統化、結構化地呈現齣來的一份珍貴資料。它的語言風格在保持嚴謹性的同時,又充滿瞭實戰的熱情,讓人在學習技術細節的同時,也能感受到一種對數據倉庫技術的熱愛和追求極緻的態度。閱讀這本書的過程,與其說是學習新的知識點,不如說是在不斷地進行一次自我知識體係的重構和查漏補缺。對於任何一個負責或計劃負責 Greenplum 集群的 DBA、數據工程師或架構師而言,這本書絕對是案頭必備的、值得反復研讀的深度指南,它將成為加速團隊技術成熟度的催化劑,投資迴報率極高。
評分初翻閱內頁,我立刻被作者在講解核心架構部分所展現齣來的細膩和耐心所摺服。他沒有采用那種晦澀難懂的教科書式語言,而是用一種近乎“手把手”的指導口吻來闡述 Greenplum 分布式存儲和查詢優化的底層原理。比如,在解析數據傾斜問題時,作者不僅指齣瞭問題所在,還結閤瞭多個企業級場景的虛擬數據模型進行可視化分析,對比瞭不同優化策略帶來的性能差異,這種對比分析非常直觀有力,大大降低瞭理解復雜分布式係統的門檻。我尤其欣賞他對“為什麼”的深入挖掘,很多同類書籍僅僅停留在“是什麼”和“怎麼做”,而這本書卻花瞭不少篇幅去解釋背後的設計哲學和權衡取捨,這對於一個想要精通而非僅僅停留在應用層麵的工程師來說,是極其寶貴的財富。
評分對於我這種已經使用 Greenplum 一段時間的用戶來說,這本書的高級特性和擴展性介紹部分更是亮點頻齣。它深入探討瞭Greenplum與其他大數據生態組件(如Hadoop、Kafka)的集成策略,特彆是關於資源隊列(Resource Queue)和工作負載管理(Workload Management)的精妙配置,提供瞭非常多關於如何在高並發、多租戶環境下實現資源隔離和SLA保障的獨傢技巧。書中關於存儲過程和UDF(用戶定義函數)的編寫規範和性能陷阱分析,也極大地拓寬瞭我的開發視野,讓我意識到過去自己寫的一些自定義函數可能存在性能隱患。作者在這些“進階”內容的處理上,顯示齣一種對係統工程的深刻洞察力,確保瞭讀者的技術棧能夠真正覆蓋到企業級部署的深度和廣度。
評分這本書的封麵設計得非常吸引人,那種深邃的藍色背景搭配著簡潔有力的白色字體,一看就知道是麵嚮技術讀者的專業書籍。我拿到手的時候,首先被它厚實的質感所吸引,感覺內容一定非常紮實。拆開塑封膜後,那種油墨混閤著紙張的特有氣味撲麵而來,讓人精神為之一振,仿佛已經預示著一場深入的知識探索之旅即將開始。這本書的排版也做得相當齣色,字體大小適中,行距閤理,即使是閱讀一些復雜的代碼片段,也能保持清晰的視覺體驗,這對於長時間的深度學習來說,無疑是一個巨大的加分項。我特彆留意瞭目錄結構,邏輯層次分明,從基礎概念的梳理到高級特性的剖析,再到實際案例的演示,循序漸進,讓人感覺作者對 Greenplum 這一技術的理解是極其透徹和係統的,準備工作已經做得很到位瞭。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有