具體描述
作 者:(美)拉爾夫·金博爾(Ralph Kimball) 等 著;蒲成 譯 定 價:118 齣 版 社:清華大學齣版社 齣版日期:2017年08月01日 頁 數:681 裝 幀:平裝 ISBN:9787302475798 ●第1章 讀本概覽 1
●1.1 抑製住立即開始編碼的衝動 1
●1.2 設置邊界 3
●1.3 數據爭奪 5
●1.4 流言終結者 7
●1.5 劃分數據世界 9
●1.6 集成式企業數據倉庫的必要步驟 10
●1.6.1 集成式EDW會交付什麼 11
●1.6.2 集成的試金石 11
●1.6.3 組織挑戰 12
●1.6.4 一緻化維度和事實 12
●1.6.5 使用總綫矩陣與管理層交流 12
●1.6.6 管理集成式EDW的主乾 13
●1.6.7 維度管理器 14
●1.6.8 事實提供者 15
●1.6.9 配置商業智能(BI)工具 16
●1.6.10 連帶責任 17
●1.7 鑽取以尋求原因 17
●1.8 漸變維度 19
●1.8.1 漸變維度的三種原生類型 20
●部分目錄
內容簡介
作為數據倉庫和商業智能(DW/BI)行業中很有影響力的領軍人物,Ralph Kimball、Margy Ross得到瞭世界範圍內的認可和尊重,他們在《數據倉庫與商業智能寶典(靠前版)》中確立瞭行業標準。現在,在《數據倉庫與商業智能寶典(第2版)成功設計、部署和維護DW/BI係統》中已經更新瞭65篇Design Tip和白皮書,從而匯集瞭DW/BI技術創新前沿的著作。從項目規劃和需求收集,到維度建模、ETL和BI應用,本書涵蓋瞭你在數據倉庫和商業智能中將會遇到的所有內容。這些無與倫比的文章提供瞭成功地設計、部署和維護DW/BI係統的重要建議。 (美)拉爾夫·金博爾(Ralph Kimball) 等 著;蒲成 譯 Ralph Kimball創立瞭Kimball Group。自20世紀80年代中期開始,他就一直是DW/BI行業關於維度化方法的思想,並且已經培訓瞭超過20 000名IT專傢。在任職於Metaphor和創立Red Brick Systems之前,Ralph在施樂帕剋研究中心(Xerox PARC)參與創建瞭Star工作站。Ralph擁有斯坦福大學電子工程專業的博士學位。
Margy Ross是Kimball Group和Decision Works Consulting的董事長。她從19等 Kimball Group的文章和Design Tip歸檔文件一直都是我們網站(www.kimballgroup.com)上瀏覽量大的。迴顧20年前Ralph初於1995年發錶的DBMS雜誌文章,這些歸檔文件探究瞭超過250個主題,有時比我們的書籍或課程探究的程度還要深。
在《數據倉庫與商業智能寶典(第2版)成功設計、部署和維護DW/BI係統》中,我們以連貫的方式組織瞭所有這些文章。不過本書並不僅僅是過去的雜誌文章和Design Tip一字不變的集閤。我們已經精簡瞭多餘的內容,確保所有文章都以一緻詞匯來編寫,並且更新瞭許多圖片。本書中的文章都進行瞭重新編輯和改進。
經過慎重的討論之後,我們決定更新整本書中的時間基準以及內容,以便提供2015的視角,而不是將舊日期或者過時的概念留在這些文章中。因此,2007年所寫的文章可能等
洞察企業數據價值,驅動智慧決策 在當今信息爆炸的時代,數據已成為企業最寶貴的資産之一。如何有效地收集、存儲、管理和分析這些海量數據,從中挖掘齣有價值的洞察,並最終轉化為驅動業務增長的決策,是每一個尋求在激烈競爭中脫穎而齣的企業麵臨的共同挑戰。本書旨在為讀者提供一套係統化、實操性的解決方案,幫助企業構建強大的數據基礎設施,解鎖數據潛能,實現智能化運營和戰略升級。 第一部分:數據倉庫的基石——構建堅實的數據基礎 本部分將深入探討數據倉庫的設計、構建與管理,為企業搭建可靠的數據基石。 第一章:數據倉庫概述與核心概念 數據倉庫的定義與目標: 深入解析數據倉庫是什麼,它與傳統數據庫有何本質區彆,以及構建數據倉庫的根本目的——支持決策分析。我們將討論數據倉庫如何從事務型數據庫中分離齣來,專注於曆史數據分析和主題導嚮。 數據倉庫的關鍵特徵: 詳細闡述主題導嚮(Subject-Oriented)、集成性(Integrated)、非易失性(Non-volatile)和時變性(Time-Variant)這四大核心特徵,並結閤實際案例說明這些特徵的重要性。 數據倉庫與商業智能(BI)的關係: 明確數據倉庫作為商業智能技術棧的核心組成部分,提供數據支撐,BI則在此基礎上進行分析和可視化,從而驅動商業決策。 數據倉庫的架構模式: 介紹不同類型的數據倉庫架構,包括企業級數據倉庫、數據集市(Data Mart)和操作型數據存儲(Operational Data Store, ODS),分析它們的優缺點及適用場景。 數據倉庫的演進與發展趨勢: 探討數據倉庫技術的發展曆程,從傳統的EDW到現代的雲數據倉庫、數據湖倉一體(Data Lakehouse)等,為讀者描繪未來的發展圖景。 第二章:數據模型設計——為數據分析奠定基礎 維度建模(Dimensional Modeling): 深入講解維度建模的原理,包括事實錶(Fact Table)和維度錶(Dimension Table)的設計。我們將詳細解釋星型模型(Star Schema)和雪花模型(Snowflake Schema)的區彆、適用性以及如何根據業務需求進行選擇。 度量(Measures)與維度(Dimensions)的定義: 明確度量(如銷售額、數量)和維度(如時間、産品、客戶、地理位置)的概念,以及如何在模型中準確地錶示它們。 退化維度(Degenerate Dimensions)、慢變維度(Slowly Changing Dimensions, SCD)與維度錶的設計: 詳細講解如何處理不同類型的數據變化,例如天數、周數、月數等退化維度,以及如何有效管理維度數據隨時間的變化(SCD Type 1, Type 2, Type 3等)。 事實錶的類型: 區分纍加快照事實錶(Accumulating Snapshot Fact Table)、事務事實錶(Transactional Fact Table)和周期快照事實錶(Periodic Snapshot Fact Table),並提供實際案例。 數據倉庫元數據管理: 討論元數據在數據倉庫中的重要性,包括技術元數據(描述數據庫對象)和業務元數據(描述業務術語和邏輯),以及如何進行有效的元數據管理。 第三章:ETL/ELT流程——數據的生命綫 ETL(Extract, Transform, Load)/ELT(Extract, Load, Transform)的概念與流程: 詳細解析ETL和ELT兩種數據集成方式的原理、差異以及各自的優勢。 數據抽取(Extract)策略: 探討全量抽取、增量抽取(基於時間戳、日誌、CDC等)以及抽取過程中的數據校驗方法。 數據轉換(Transform)策略: 重點講解數據清洗、數據標準化、數據集成、數據聚閤、數據計算等核心轉換過程,以及如何處理數據異常和不一緻性。 數據加載(Load)策略: 介紹全量加載、增量加載、批量加載和實時加載等加載方式,以及如何優化加載性能。 ETL/ELT工具與技術選型: 評估市麵上主流的ETL/ELT工具(如Informatica, Talend, Kettle, SSIS, Azure Data Factory, AWS Glue等),以及雲原生數據集成服務。 ETL/ELT流程的自動化與監控: 講解如何設計可調度、可監控的ETL/ELT作業,以及如何建立有效的錯誤處理和告警機製。 第四章:數據倉庫的構建與優化 物理設計與性能優化: 探討數據庫選型(關係型數據庫、MPP數據庫、雲數據倉庫等),錶分區(Partitioning)、索引(Indexing)、視圖(Views)的設計與優化,以及如何減少I/O操作。 數據倉庫的部署策略: 討論本地部署、雲部署(SaaS, PaaS, IaaS)以及混閤部署的優劣勢,並提供遷移到雲的考慮因素。 數據倉庫的安全性與訪問控製: 講解如何實現數據加密、訪問權限控製、角色管理,確保數據安全閤規。 數據質量管理: 強調數據質量的重要性,介紹數據質量檢測、度量、改進和監控的方法,以及如何建立數據質量團隊。 數據倉庫的生命周期管理: 探討數據歸檔、數據備份與恢復、數據生命周期策略,以及如何管理不斷增長的數據量。 第二部分:商業智能的實踐——驅動企業洞察與決策 本部分將聚焦於商業智能的各項技術與應用,幫助企業將數據轉化為 actionable insights。 第五章:商業智能(BI)概述與發展 商業智能的定義與價值: 明確BI的內涵,它如何幫助企業理解業務狀況、發現趨勢、識彆機會和風險,從而做齣更明智的決策。 BI的構成要素: 介紹BI係統通常包含數據源、數據倉庫、BI工具(報錶、儀錶盤、OLAP、數據挖掘)以及業務用戶。 BI的類型與應用場景: 探討描述性BI(發生瞭什麼)、診斷性BI(為什麼發生)、預測性BI(將要發生什麼)和規範性BI(應該怎麼做)等不同層級的BI應用,並給齣各行業(零售、金融、製造、醫療等)的典型應用案例。 BI的演進趨勢: 討論自助式BI(Self-Service BI)、嵌入式BI(Embedded BI)、移動BI(Mobile BI)、AI與BI的融閤(如智能報錶、自然語言查詢)等前沿發展。 第六章:數據可視化——讓數據“說話” 數據可視化原則與最佳實踐: 講解如何選擇閤適的圖錶類型(柱狀圖、摺綫圖、餅圖、散點圖、地圖等)來清晰、準確地傳達數據信息。 儀錶盤(Dashboard)設計: 介紹設計有效的儀錶盤的關鍵要素,包括目標明確、信息簡潔、交互性強、用戶導嚮,以及如何通過儀錶盤提供關鍵業務指標(KPIs)。 交互式可視化: 探討如何利用交互式圖錶(鑽取、下鑽、聯動、篩選等)來增強用戶探索數據的能力,發現更深層次的洞察。 故事化敘事(Data Storytelling): 講解如何通過可視化手段將數據轉化為引人入勝的故事,更有效地嚮決策者傳達業務洞察。 主流可視化工具介紹: 評估Tableau, Power BI, Qlik Sense, Looker, FineBI等主流BI可視化工具的特點和功能。 第七章:報錶與分析——洞察業務錶現 靜態報錶與動態報錶: 講解不同類型報錶的特點、設計要點以及在不同場景下的應用。 OLAP(Online Analytical Processing)技術: 深入理解OLAP立方體(Cube)的概念,以及切片(Slice)、切塊(Dice)、上捲(Roll-up)、下鑽(Drill-down)等基本操作,如何實現多維數據分析。 Ad-hoc分析: 講解如何賦能業務用戶進行即席查詢和自由探索,快速獲取所需信息。 KPIs(關鍵績效指標)的定義與監控: 探討如何定義和跟蹤衡量業務目標達成情況的關鍵指標,以及如何在BI報錶中有效呈現。 數據鑽取與下鑽分析: 詳細介紹如何通過多層級的數據結構,從宏觀指標深入到微觀細節,追溯問題的根本原因。 第八章:高級分析與挖掘——探索數據深層價值 數據挖掘(Data Mining)基礎: 介紹常用的數據挖掘技術,如分類(Classification)、聚類(Clustering)、關聯規則挖掘(Association Rule Mining)、異常檢測(Anomaly Detection)等。 預測模型與算法: 講解常用的預測模型,如綫性迴歸、邏輯迴歸、時間序列分析、決策樹、隨機森林等,以及如何構建和評估預測模型。 機器學習在BI中的應用: 探討如何利用機器學習技術來自動化分析、發現隱藏模式、進行客戶細分、預測客戶流失、優化定價策略等。 自然語言處理(NLP)與BI的結閤: 介紹如何利用NLP技術實現自然語言查詢(NLQ),讓非技術用戶能夠用自然語言提問並獲得數據答案。 圖數據分析在BI中的應用: 探討圖數據庫和圖分析技術如何用於發現隱藏的關係和連接,例如社交網絡分析、欺詐檢測等。 第九章:企業級BI平颱建設與治理 BI平颱選型考慮因素: 從功能、性能、易用性、擴展性、成本、供應商支持等多個維度,指導讀者如何選擇適閤自身企業的BI平颱。 BI項目的實施流程與方法論: 介紹BI項目的規劃、需求分析、設計、開發、測試、部署、培訓和上綫等關鍵階段。 BI的用戶管理與權限控製: 講解如何建立完善的用戶體係和權限模型,確保數據訪問的安全性和閤規性。 BI解決方案的部署與運維: 討論BI係統的服務器配置、性能調優、故障排除、日常維護等運維工作。 BI的成功要素與挑戰: 總結實施BI項目可能遇到的挑戰(如數據孤島、用戶抵觸、缺乏數據文化等),並提供剋服這些挑戰的策略和建議,最終實現數據驅動的文化轉型。 附錄: 數據倉庫與BI專業術語錶 相關技術和工具的進一步學習資源 案例研究分析 本書的內容涵蓋瞭從數據倉庫的基礎構建到商業智能的深入應用,力求為讀者提供一個全麵、係統、易於理解的知識框架。通過本書的學習,您將能夠: 理解數據倉庫的核心概念和架構,掌握數據模型設計方法。 熟練掌握ETL/ELT流程的設計與實現,確保數據的高效集成與轉換。 掌握數據倉庫的物理設計和性能優化技巧,構建穩定高效的數據平颱。 深入理解商業智能的原理與技術,掌握數據可視化和報錶分析的方法。 瞭解高級數據分析和挖掘技術,從數據中發現更深層次的業務洞察。 能夠獨立規劃和實施企業級的BI項目,推動數據驅動的決策文化。 本書的編寫力求語言通俗易懂,理論與實踐相結閤,配以大量的圖示和案例,幫助讀者更好地理解和掌握相關知識。無論您是數據工程師、BI分析師、IT架構師,還是希望提升企業數據應用能力的業務管理者,本書都將是您不可或缺的參考指南。讓我們一起,用數據點亮智慧,驅動業務飛躍!