YL6895 9787302469803 9787302385530
第1章 數據倉庫簡介
1.1 什麼是數據倉庫 1
1.1.1 數據倉庫的定義 1
1.1.2 建立數據倉庫的原因 3
1.2 操作型係統與分析型係統 5
1.2.1 操作型係統 5
1.2.2 分析型係統 8
1.2.3 操作型係統和分析型係統對比 9
1.3 數據倉庫架構 10
1.3.1 基本架構 10
1.3.2 主要數據倉庫架構 12
1.3.3 操作數據存儲 16
1.4 抽取-轉換-裝載 17
1.4.1 數據抽取 17
1.4.2 數據轉換 19
1.4.3 數據裝載 20
1.4.4 開發ETL係統的方法 21
1.4.5 常見ETL工具 21
1.5 數據倉庫需求 22
1.5.1 基本需求 22
1.5.2 數據需求 23
1.6 小結 24
第2章 數據倉庫設計基礎
2.1 關係數據模型 25
2.1.1 關係數據模型中的結構 25
2.1.2 關係完整性 28
2.1.3 規範化 30
2.1.4 關係數據模型與數據倉庫 33
2.2 維度數據模型 34
2.2.1 維度數據模型建模過程 35
2.2.2 維度規範化 36
2.2.3 維度數據模型的特點 37
2.2.4 星型模式 38
2.2.5 雪花模式 40
2.3 Data Vault模型 42
2.3.1 Data Vault模型簡介 42
2.3.2 Data Vault模型的組成部分 43
2.3.3 Data Vault模型的特點 44
2.3.4 Data Vault模型的構建 44
2.3.5 Data Vault模型實例 46
2.4 數據集市 49
2.4.1 數據集市的概念 50
2.4.2 數據集市與數據倉庫的區彆 50
2.4.3 數據集市設計 50
2.5 數據倉庫實施步驟 51
2.6 小結 54
第3章 Hadoop生態圈與數據倉庫
3.1 大數據定義 55
3.2 Hadoop簡介 56
3.2.1 Hadoop的構成 57
3.2.2 Hadoop的主要特點 58
3.2.3 Hadoop架構 58
3.3 Hadoop基本組件 59
3.3.1 HDFS 60
3.3.2 MapReduce 65
3.3.3 YARN 72
3.4 Hadoop生態圈的其他組件 77
3.5 Hadoop與數據倉庫 81
3.5.1 關係數據庫的可擴展性瓶頸 82
3.5.2 CAP理論 84
3.5.3 Hadoop數據倉庫工具 85
3.6 小結 88
第4章 安裝Hadoop
4.1 Hadoop主要發行版本 89
4.1.1 Cloudera Distribution for Hadoop(CDH) 89
4.1.2 Hortonworks Data Platform(HDP) 90
4.1.3 MapR Hadoop 90
4.2 安裝Apache Hadoop 91
4.2.1 安裝環境 91
4.2.2 安裝前準備 92
4.2.3 安裝配置Hadoop 93
4.2.4 安裝後配置 97
4.2.5 初始化及運行 97
4.3 配置HDFS Federation 99
4.4 離綫安裝CDH及其所需的服務 104
4.4.1 CDH安裝概述 104
4.4.2 安裝環境 106
4.4.3 安裝配置 106
4.4.4 Cloudera Manager許可證管理 114
4.5 小結 115.........
第1章 數據倉庫、商業智能及維度建模初步
1.1 數據獲取與數據分析的區彆
1.2 數據倉庫與商業智能的目標
1.3 維度建模簡介
1.3.1 星型模式與OLAP多維數據庫
1.3.2 用於度量的事實錶
1.3.3 用於描述環境的維度錶
1.3.4 星型模式中維度與事實的連接
1.4 Kimball的DW/BI架構
1.4.1 操作型源係統
1.4.2 獲取.轉換_加口載(ETL)係統
1.4.3 用於支持商業智能決策的展現區
1.4.4 商業智能應用
1.4.5 以餐廳為例描述Kimball架構
1.5 其他DW/BI架構
1.5.1 獨立數據集市架構]
1.5.2 輻射狀企業信息工廠Inmon架構
1.5.3 混閤輻射狀架構與Kimball架構
1.6 維度建模神話
1.6.1 神話1:維度模型僅包含匯總數據
1.6.2 神話2:維度模型是部門級而不是企業級的
1.6.3 神話3:維度模型是不可擴展的
1.6.4 神話4:維度模型僅用於預測
1.6.5 神話5:維度模型不能被集成
1.7 考慮使用維度模型的
更多理由
1.8 本章小結
第2章 Kimball維度建模技術概述
2.1 基本概念
2.1.1 收集業務需求與數據實現
2.1.2 協作維度建模研討
2.1.3 4步驟維度設計過程
2.1.4 業務過程
2.1.5 粒度
2.1.6 描述環境的維度
2.1.7 用於度量的事實
2.1.8 星型模式與OLAP多維數據庫
2.1.9 方便地擴展到維度模型
2.2 事實錶技術基礎
2.2.1 事實錶結構
2.2.2 可加、半可加、不可加事實
2.2.3 事實錶中的空值
2.2.4 一緻性事實
2.2.5 事務事實錶
2.2.6 周期快照事實錶
2.2.7 纍積快照事實錶
2.2.8 無事實的事實錶
2.2.9 聚集事實錶或OLAP多維數據庫
2.2.1 0閤並事實錶
2.3 維度錶技術基礎
2.3.1 維度錶結構
2.3.2 維度代理鍵
2.3.3 自然鍵、持久鍵和**自然鍵
2.3.4 下鑽
2.3.5 退化維度
2.3.6 非規範化扁平維度
2.3.7 多層次維度
2.3.8 文檔屬性的標識與指示器
2.3.9 維度錶中的空值屬性
2.3.10 日曆日期維度
2.3.11 扮演角色的維度
2.3.12 雜項維度
2.3.13 雪花維度
2.3.14 支架維度
2.4 使用一緻性維度集成
2.4.1 一緻性維度
2.4.2 縮減維度
2.4.3 跨錶鑽取
2.4.4 價值鏈
2.4.5 企業數據倉庫總綫架構
2.4.6 企業數據倉庫總綫矩陣
2.4.7 總綫矩陣實現細節
2.4.8 機會/利益相關方矩陣
2.5 處理緩慢變化維度屬性
2.5.1 類型0:原樣保留
2.5.2 類型1:重寫
2.5.3 類型2:增加新行
2.5.4 類型3:增加新屬性
2.5.5 類型4:增加微型維度
2.5.6 類型5:增加微型維度及類型1支架
2.5.7 類型6:增加類型1屬性到類型2維度
2.5.8 類型7:雙類型l和類型2維度
2.6 處理維度層次關係
2.6.1 固定深度位置的層次
2.6.2 輕微參差不齊/可變深度層次
2.6.3 具有層次橋接錶的參差不齊/可變深度層次
2.6.4 具有路徑字符屬性的可變深度層次
2.7 **事實錶技術
2.7.1 事實錶代理鍵
2.7.2 蜈蚣事實錶
2.7.3 屬性或事實的數字值
2.7.4 日誌/持續時間事實
2.7.5 頭/行事實錶
2.7.6 分配的事實
2.7.7 利用分配建立利潤與損失事實錶
2.7.8 多種貨幣事實
2.7.9 多種度量事實單位
2.7.1 0年.日事實
2.7.1 1多遍SQL以避免事實錶間的連接
2.7.1 2針對事實錶的時間跟蹤1
2.7.1 3遲到的事實
2.8 **維度技術
2.8.1 維度錶連接
2.8.2 多值維度與橋接錶
2.8.3 隨時間變化的多值橋接錶
2.8.4 標簽的時間序列行為
2.8.5 行為研究分組
2.8.6 聚集事實作為維度屬性
2.8.7 動態值範圍
2.8.8 文本注釋維度
2.8.9 多時區
2.8.10 度量類型維度.........
這次購入的這兩本關於數據倉庫和Hadoop的書籍,讓我對未來的學習充滿瞭期待。《Hadoop構建數據倉庫實踐》這本書,從它的名字就可以看齣,它會聚焦於如何利用Hadoop這個強大的平颱來構建數據倉庫。我猜書中會有大量的案例分析和實操指導,從Hadoop集群的搭建,到數據加載、轉換、存儲,再到使用Hive、Spark等工具進行數據分析,應該都有非常詳細的步驟講解。我特彆關注書中關於如何處理結構化、半結構化和非結構化數據,以及如何進行數據治理和元數據管理的部分。這些都是在實際項目中非常重要的環節,能夠幫助我更好地理解和應用Hadoop技術來解決數據倉庫麵臨的挑戰。而《數據倉庫工具箱 第3版》,作為一本數據倉庫領域的權威著作,我想它會為我提供一套完整的理論框架和實踐方法。書中關於數據倉庫的架構設計、維度建模的最佳實踐、ETL流程的優化策略,以及如何利用BI工具從數據倉庫中提取洞察等內容,都將是我學習的重點。我相信這兩本書能夠相互印證,讓我對數據倉庫的理解更加深入和全麵,無論是理論知識還是實踐操作,都能得到極大的提升,從而更好地服務於我的工作。
評分這兩本書的組閤,對我來說簡直是如虎添翼。《Hadoop構建數據倉庫實踐》這本書,我期望它能夠帶我深入瞭解Hadoop生態係統在數據倉庫建設中的具體應用。比如,書中會不會詳細介紹如何利用HDFS作為數據存儲層,MapReduce或Spark作為計算引擎,Hive作為數據倉庫的查詢接口,以及HBase作為實時數據訪問的解決方案。我非常希望能學習到如何在實際環境中部署和管理Hadoop集群,以及如何進行高效的數據ETL過程,將來自不同源係統的數據整閤到Hadoop環境中。書中關於性能調優和故障排除的經驗分享,也將是我非常看重的部分。另一方麵,《數據倉庫工具箱 第3版》這本書,作為數據倉庫領域的經典之作,我相信它會為我提供紮實的理論基礎和方法論指導。從數據倉庫的生命周期管理、業務流程分析,到維度建模的原則和實踐,再到數據質量的保障和BI應用的集成,我希望能夠通過這本書,係統地掌握構建一個健壯、易於理解和維護的數據倉庫的設計思想。這兩本書的結閤,讓我相信我能構建齣既能處理海量數據,又符閤業務需求的現代化數據倉庫。
評分這次買的書是《包郵 Hadoop構建數據倉庫實踐+數據倉庫工具箱 第3版》,收到書的時候真的挺開心的,尤其是價格也閤適,還包郵,感覺性價比挺高的。拆開快遞,看到書本的裝幀設計,挺紮實的,紙張的質量也還不錯,摸起來有質感,字跡印刷清晰,閱讀起來眼睛不會覺得纍。我平時比較喜歡研究一些技術方麵的東西,對數據倉庫和大數據技術一直都很有興趣,這次這兩本書都是我一直想看的,尤其是《Hadoop構建數據倉庫實踐》,感覺光是書名就很有吸引力,應該能學到很多實際操作的東西,對如何用Hadoop來構建一個完整的數據倉庫有更深入的瞭解,比如數據的采集、存儲、處理和分析的全流程,以及相關的架構設計和性能優化。而《數據倉庫工具箱 第3版》更是經典,數據倉庫領域的“聖經”級讀物,聽說它係統地介紹瞭數據倉庫的建模、設計、ETL流程以及BI應用等方麵的內容,理論知識非常紮實,是構建健壯、高效數據倉庫的基石。這兩本書搭配起來看,感覺就像是理論與實踐的完美結閤,一本側重於工具和平颱的使用,另一本側重於方法論和設計理念,希望能通過它們,真正掌握構建和管理數據倉庫的核心技能,解決工作中遇到的實際問題,提升數據分析和挖掘的能力。
評分收到這兩本書,我真的迫不及待地翻看瞭起來。《Hadoop構建數據倉庫實踐》這本書,給我的第一印象是內容非常接地氣,從Hadoop的基礎概念講起,逐步深入到如何利用Hadoop生態係統中的各種組件,比如HDFS、MapReduce、Hive、HBase等,來構建一個完整的數據倉庫。書中應該會有很多實際案例和代碼示例,這對於我這種喜歡動手實踐的人來說,簡直是福音。我特彆期待書中關於數據建模、ETL流程設計、數據質量管理以及性能調優的部分,這些都是構建一個高效、穩定數據倉庫的關鍵。而且,Hadoop技術發展很快,瞭解最新的實踐方法非常有必要。同時,《數據倉庫工具箱 第3版》這本書,作為一本經典的參考書,我想它會提供非常係統和全麵的理論指導。數據倉庫的生命周期管理、維度建模的各種技巧、事實錶的設計原則,以及與BI工具的集成等等,都應該會有詳盡的講解。這本書就像一本武功秘籍,能夠幫助我理清思路,建立起科學的數據倉庫設計思維,避免走彎路。我希望通過閱讀這兩本書,能夠從零開始,建立起一個符閤業務需求、性能優越的數據倉庫,並且掌握如何讓數據倉庫發揮齣最大的價值,支持更深層次的商業智能分析。
評分這兩本書的組閤,真的是讓我看到瞭大數據時代下數據倉庫建設的未來方嚮。《Hadoop構建數據倉庫實踐》這本書,看目錄就感覺內容很豐富,應該涵蓋瞭從數據采集、預處理、存儲,到數據分析、可視化等各個環節。我尤其對書中關於如何利用Hadoop的分布式計算能力來處理海量數據,以及如何選擇閤適的Hadoop組件來實現數據倉庫的各個功能的部分非常感興趣。比如,如何用Hive進行SQL查詢,如何用HBase存儲實時數據,以及如何利用Spark來加速數據處理等,這些都是我急切想瞭解的。感覺這本書會教我如何“落地”,如何將理論知識轉化為實際的生産力。而《數據倉庫工具箱 第3版》這本書,則更像是給我打下瞭堅實的理論基礎。數據倉庫的設計原則、維度建模的方法論、ETL的完整流程,以及如何衡量數據倉庫的性能和質量,這些都是非常重要的知識點。我相信通過這本書的學習,我能夠更深刻地理解數據倉庫的本質,掌握構建優秀數據倉庫的設計理念,從而在實際工作中做齣更明智的決策,設計齣更易於維護、擴展性更強的數據倉庫係統,為企業提供更可靠的數據支持。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有