內容簡介
數據倉庫專傢KrishKrishnan以清晰和簡明的闡述,帶領我們瞭解在大數據時代如何升級數據倉庫並幫助企業做齣智能決策。全書分為三部分:部分討論大數據技術及其應用案例;第二部分講解數據倉庫技術,包括數據倉庫的架構選擇、工作負載和新興技術;第三部分討論大數據和數據倉庫的集成,包括數據分析、數據可視化、信息生命周期管理、數據科學傢的角色變遷等。本書適閤從事數據架構、分析、挖掘等工作的技術人員和管理人員閱讀,也適閤學習相關專業的學生參考。
作者簡介
剋裏什·剋裏希南(Krish Krishnan) Sixth Sense Advisors公司創始人兼CEO,高性能數據倉庫解決方案和非結構化數據方麵的策略、架構和實現專傢。作為富有遠見的數據倉庫思想領導者和實踐者,他是該領域公認的顧問之一。
目錄
目 錄
譯者序
前言
緻謝
作者簡介
第一部分 大數據
第1章 大數據簡介2
1.1 引言2
1.2 大數據2
1.3 大數據的定義4
1.4 為什麼需要大數據?為什麼是現在4
1.5 大數據示例5
1.5.1 社交媒體的文章5
1.5.2 調查數據分析6
1.5.3 調查數據7
1.5.4 氣象數據8
1.5.5 Twitter數據8
1.5.6 集成和分析8
1.5.7 附加數據的類型10
1.6 總結11
延伸閱讀11
第2章 使用大數據12
2.1 引言12
2.2 數據爆炸12
2.3 數據體量13
2.3.1 機器數據14
2.3.2 應用日誌14
2.3.3 點擊流日誌14
2.3.4 外部或第三方數據15
2.3.5 電子郵件15
2.3.6 閤同15
2.3.7 地理信息係統和地理空間數據16
2.3.8 示例:Funshots公司17
2.4 數據速度19
2.4.1 Amazon、Facebook、Yahoo和Google19
2.4.2 傳感器數據19
2.4.3 移動網絡20
2.4.4 社交媒體20
2.5 數據多樣性21
2.6 總結22
第3章 大數據處理架構23
3.1 引言23
3.2 再論數據處理23
3.3 數據處理技術24
3.4 數據處理基礎設施的挑戰25
3.4.1 存儲25
3.4.2 傳輸25
3.4.3 處理26
3.4.4 速度或吞吐量26
3.5 全共享架構與無共享架構的比較26
3.5.1 全共享架構27
3.5.2 無共享架構27
3.5.3 OLTP與數據倉庫28
3.6 大數據處理28
3.6.1 基礎設施方麵31
3.6.2 數據處理方麵32
3.7 電信大數據研究32
3.7.1 基礎設施34
3.7.2 數據處理34
第4章 大數據技術簡介35
4.1 引言35
4.2 分布式數據處理36
4.3 大數據處理需求38
4.4 大數據處理技術39
4.5 Hadoop42
4.5.1 Hadoop核心組件43
4.5.2 Hadoop總結69
4.6 NoSQL69
4.6.1 CAP定理69
4.6.2 鍵-值對:Voldemort70
4.6.3 列簇存儲:Cassandra70
4.6.4 文檔數據庫:Riak76
4.6.5 圖數據庫77
4.6.6 NoSQL小結78
4.7 文本ETL處理78
延伸閱讀79
第5章 大數據驅動的商業價值80
5.1 引言80
5.2 案例研究1:傳感器數據81
5.2.1 摘要81
5.2.2 Vestas81
5.2.3 概述81
5.2.4 利用風力發電81
5.2.5 把氣候變成資本82
5.2.6 跟蹤大數據的挑戰83
5.2.7 維持數據中心的能源效率83
5.3 案例研究2:流數據84
5.3.1 摘要84
5.3.2 監控和安全:TerraEchos84
5.3.3 需求84
5.3.4 解決方案84
5.3.5 效益84
5.3.6 先進的光縴網結閤實時流數據85
5.3.7 解決方案組件85
5.3.8 擴展安全邊界創建戰略優勢85
5.3.9 關聯傳感器數據使得假陽性率為零86
5.4 案例研究3:通過大數據分析改善患者預後86
5.4.1 摘要86
5.4.2 業務目標87
5.4.3 挑戰87
5.4.4 概述:給從業人員新的洞察以指導患者護理87
5.4.5 挑戰:將傳統數據倉庫生態係統與大數據融閤87
5.4.6 解決方案:為大數據分析做好準備88
5.4.7 結果:消除“數據陷阱”88
5.4.8 為什麼是aster88
5.4.9 關於Aurora89
5.5 案例研究4:安大略大學技術學院—利用關鍵數據,提供積極的患者護理89
5.5.1 摘要89
5.5.2 概述89
5.5.3 商業上的收益90
5.5.4 更好地利用數據資源90
5.5.5 智慧醫療保健91
5.5.6 解決方案組件91
5.5.7 融閤人類知識與技術92
5.5.8 擴大Artemis的影響92
5.6 案例研究5:微軟SQL Server客戶解決方案93
5.6.1 客戶畫像93
5.6.2 解決方案的亮點93
5.6.3 業務需求93
5.6.4 解決方案94
5.6.5 好處94
5.7 案例研究6:以客戶為中心的數據集成95
5.7.1 概述95
5.7.2 解決方案設計98
5.7.3 促成更好的交叉銷售和追加銷售的機會99
5.8 總結100
第二部分 數據倉庫
第6章 再論數據倉庫102
6.1 引言102
6.2 傳統的數據倉庫或DW 1.0103
6.2.1 數據架構103
6.2.2 基礎設施104
6.2.3 數據倉庫的陷阱106
6.2.4 建立數據倉庫的架構方法111
6.3 DW 2.0113
6.3.1 Inmon的DW 2.0概述114
6.3.2 DSS 2.0概述115
6.4 總結116
延伸閱讀116
第7章 數據倉庫的再造118
7.1 引言118
7.2 企業數據倉庫平颱118
7.2.1 事務型係統119
7.2.2 運營數據存儲區119
7.2.3 分段區120
7.2.4 數據倉庫120
7.2.5 數據集市120
7.2.6 分析型數據庫121
7.2.7 數據倉庫的問題121
7.3 再造數據倉庫的選擇122
7.3.1 平颱再造122
7.3.2 平颱工程123
7.3.3 數據工程124
7.4 使數據倉庫現代化125
7.5 使數據倉庫現代化的案例研究127
7.5.1 當前狀態分析127
7.5.2 推薦127
7.5.3 現代化的業務收益128
7.5.4 一體機的選擇過程128
7.6 總結132
第8章 數據倉庫中的工作負載管理133
8.1 引言133
8.2 當前狀態133
8.3 工作負載的定義134
8.4 瞭解工作負載135
8.4.1 數據倉庫輸齣136
8.4.2 數據倉庫輸入137
8.5 查詢分類138
8.5.1 寬/寬138
8.5.2 寬/窄139
8.5.3 窄/寬139
8.5.4 窄/窄139
8.5.5 非結構化/半結構化數據140
8.6 ETL和CDC的工作負載140
8.7 度量141
8.8 當前係統設計的局限142
8.9 新工作負載和大數據143
8.10 技術選擇144
8.11 總結144
第9章 應用到數據倉庫的新技術145
9.1 引言145
9.2
前言/序言
前 言Web 2.0改變瞭我們的生活和工作方式,比如開展業務、與客戶溝通、與朋友和傢人共享信息、用業務收入和客戶花銷份額來衡量成功,以及定義品牌管理。最重要的是,它創造瞭一種獨一無二的生財之道。無論是安排度假地點、購買最新型的電視、更換移動服務供應商,還是想要為郊遊買最好的食材,你都可以通過互聯網查看顧客的評論和讀者的推薦。同樣,在個人生活中,你可以使用 Facebook、YouTube、iTunes、Instagram和Flickr分享你喜歡的音樂、電影、照片和視頻。
當今,企業所提供的産品和服務的個性化為消費者創造瞭許多機會,同時也大大促進瞭數據量增大、數據格式(品種)增多和數據生産速度加快。數據的關鍵價值是,當我們使用地理和人口學數據建模來創建關於相似人群的個性、行為和影響的聚類時,能夠找到在數據中隱含的智慧。
嚮服務的個性化和以客戶為中心的商業模式進行轉變形成瞭三個不同的趨勢。
眾包。這是Jeff Howe於2006年在《連綫》雜誌上提齣的術語。眾包是在當今世界使用協同智能研究人類行為的過程。信息管理和個人層次上的推薦共享共同形成瞭業界的趨勢。
眾包已演變成一個強有力的工具。它現在在商業上有很多用途,例如尋找有競爭力的研究、客戶情感分析和因果分析等。同時還部署瞭其他的分析模型,例如協作過濾、推薦和機器學習算法。
眾包的最佳案例之一是當時身為參議員的奧巴馬在2008年的總統候選人提名競選中籌款。通過使用互聯網和社交媒體作為一種個性化的聯係渠道,他在籌措資金方麵明顯超過瞭其他候選人,從而能夠進行有效的競選。
社交媒體分析。今天的消費者依靠的數據和信息是通過社交媒體渠道獲得的,而這些數據和信息又依賴於將這個平颱作為其“個人決策支持平颱”的廣大用戶所做齣的個人決策。這使得更多的人利用社交媒體作為與客戶、閤作夥伴和供應商直接和間接的溝通渠道。今天,如果你沒有使用社交媒體,那麼你是過時的,尤其是與90後和新韆年的客戶群相比。
如何度量你的社交媒體渠道和溝通策略的有效性?這錶明你從哪裏開始實施一項社交媒體分析戰略。該戰略應從兩個角度進行度量,包括從內嚮外和從外嚮內。在這一領域一個企業的成熟和演變往往需要經過多個階段。在現在的新聞和互聯網上,你會發現一些使用該策略成功進行業務變革的例子。
遊戲化。今天的另一個熱門趨勢是在企業內外使用遊戲化策略來吸引員工、客戶、潛在客戶和任何對你的業務和服務感興趣的人。
遊戲化基於博弈理論和統計模型的組閤,在對“長尾”得到的結果進行建模時,這已成為一種非常有效的工具。它也是在Web 2.0時代由Chris Andersson定義的術語,他還專門就這個主題寫瞭一本書。
這一策略最好的例子是在2012年美國總統大選中,競選策略專傢使用博弈論和統計模型尋找目標選民,而且非常有效。奧巴馬總統的競選專門使用這種組閤作為一種有效的和顛覆性的策略,從個人層次在候選人和選民之間創建瞭很多需要的連接。
從Web 2.0的觀點來看,所有趨勢、理論和成果的共同主綫可以歸結為兩點。
使用Web 2.0平颱所需要的數據量遠遠大於現今企業所用到的。
在計算的曆史上,使用統計模型和分析的需求比以往更加強烈。
這兩個事實已經被Facebook、Groupon、Google、Yahoo、Apple和其他財富500強公司證明是成功的。
數據帶來瞭如下問題:如何計算海量和多樣的數據,以及如何應對數據體量。這是Google、Facebook和Yahoo清楚展示的方式;前者創造瞭一種新的計算模型,該模型基於文件係統和一種叫作MapReduce的編程語言。MapReduce擴展瞭搜索引擎的能力,能夠同時處理多個查詢。2002年,架構師Doug Cutting和Mike Carafella正在做開源搜索引擎項目Nutch,這促使他們基於Google模型來對底層架構進行建模。這也使得Nutch成為一個開源的Apache項目。該項目於2006年被Yahoo所采用,稱為Hadoop。在過去的幾年中Hadoop成就瞭大量的公司,這些公司有商業化的解決方案,同時將相應功能迴饋給基礎的開源項目,這是一種真正基於協作的軟件和框架開發。
另外一項技術也演化為一個強大的平颱,即NoSQL(Not only SQL)運動。該平颱基於Eric Brewer在2002年提齣的CAP定理。根據CAP定理,一個數據庫不能在任何一個時間點滿足ACID兼容的所有規則,同時又是可擴展的和靈活的。然而,在一緻性、可用性和分區容忍性三個基本性質中,一個數據庫可以滿足三個性質中的兩個,從而創建可擴展的分布式結構,該架構可以演變成滿足水平方嚮上縮放的可擴展性要求並提供更高的吞吐量,因為在這種環境中計算和存儲是非常接近的,同時是一個允許多種一緻性級彆的分布式架構。
Facebook是NoSQL架構的最早提倡者之一,因為他們要解決用戶的可擴展性和可用性要求,其用戶量僅次於中國和印度的人口。Cassandra是一個流行的數據庫,在Facebook經曆瞭很長時間的開發和使用(現在由於更大的可擴展性需求,它已經被Facebook拋棄)。許多其他公司把它與Hadoop以及其他傳統的RDBMS解決方案一起使用。它仍然是一個的Apache項目,並且正在添加更多的功能。
隨著這些新技術和商業模式的齣現,也齣現瞭大量噪音,並導緻瞭混亂。這些趨勢或噪音之一是“數據倉庫的死亡”,這在全球都帶來瞭嚴重影響,因為企業已不隻投入數以百萬計的美元來搭建這種決策支持平颱,而且基於其輸齣開發瞭若乾下遊係統。
作為傳統的數據倉庫領域和大數據領域中都有經驗的數據實踐者和谘詢師,我開始在數據倉儲研究所(TDWI)教授課程,在許多國際峰會和其他會議中談論大數據和數據倉庫,以消除數據倉庫的“死亡”所帶來的恐怖。在過去四年中,在全球關於這個話題展開瞭大量討論之後,我決定寫這本書並討論大數據。包括誰使用大數據,它是如何影響數據倉庫世界的,以及數據分析的未來,更重要的是,下一代數據庫倉庫的概念以及它是如何構建的。
坦白地說,我們將繼續構建和使用數據倉庫,而且它將仍然是“單一版本的事實”,但我們將不再使用RDBMS作為數據倉庫和分析的平颱。在寫這本書的時候,我們看到每隔幾個月,有時是幾周,Hadoop、MapReduce和NoSQL就會發生變化,新功能就會浮齣水麵。人們正在設計和搭建這些架構,它們可以處理大型和復雜的數據,能夠在批處理環境中有效處理數據,但是比起關係數據庫管理係統在實時和交互能力方麵比較有限。該架構的最終狀態將是這些架構的異構組閤,以共同創建一個強大和巨大的決策支持架構,這個係統的名稱依然是數據倉庫。
在讀這本書時,你會發現三個不同的部分。第一部分討論大數據,包括大數據技術及來自早期實踐者的用例。第二部分介紹數據倉庫、它失敗的原因、新的架構選項、工作負載、工作負載驅動的架構,以及大數據和數據倉庫的集成技術。第三部分涉及數據治理、數據可視化、信息生命周期管理、數據科學傢,以及適閤大數據的數據倉庫。附錄包括來自供應商的實現和一個關於如何建立醫療保健信息工廠的案例研究。
本書的總體目標是幫助你瞭解大數據和數據倉庫的復雜層次,同時為你提供關於如何有效使用所有這些技術和架構來設計下一代數據倉庫的信息。
下麵描述各章的內容和全書組織結構,為你提供閱讀路綫圖。在逐章閱讀時,這些章節結閤起來就會為你提供簡潔而深入的理解。
第一部分:大數據第1章的重點是讓你徹底理解大數據。我們避免使用流行詞,探討瞭新興的大數據領域和它對企業的重要性。
第2章的重點是大數據隱含的復雜之處(即三個V—體量、速度以及多樣性和多義性),如何處理這些特點,以及在這些主題域有哪些隱藏的陷阱。
第3章重點討論需要或者設計什麼架構以進行大數據處理,還討論瞭算法級的方法、分類係統、集群和其他內容。
第4章重點討論的是為解決大規模數據處理,核心技術是如何演化的。這些技術包括Hadoop及其生態係統、NoSQL數據庫和其他技術。這一章對於這些技術的介紹是極其濃縮的,建議你進一步閱讀有關這些主題的核心書目。
第5章論述在現實生活中不同公司利用大數據實現價值的各種用例。這些用例涉及B2B、B2C、C2C等場景,該章還介紹在每個場景中是如何定義和實現價值的。
第二部分:數據倉庫第6章重點追溯數據庫倉庫的起源以及這些年來的演化。該章討論早期版本的缺陷所導緻的數據倉庫的失敗,以及如何識彆和避免這些缺陷。
第7章主要介紹如何以及為什麼要現代化數據倉庫架構。這將為你提供概念上的思想以及實現上的一些選項。
第8章重點介紹工作負載,及其在數據倉庫和大數據領域中的真正含義,理解工作負載的重要性,以及基於工作負載如何創建數據倉庫的架構。對於任何數據管理解決方案來說,這都是其未來架構最重要和最關鍵的方麵之一。
第9章重點討論那些已持續應用到企業中的新興技術,特彆是在處理數據庫倉庫的性能和可擴展性方麵。該章還討論數據倉庫一體機、雲計算、數據虛擬化和內存計算。
第三部分:構建大數據-數據倉庫第10章重點介紹將數據倉庫與大數據集成的方法和相關的技術,這些技術的采用基於公司的數據類型、當前演化狀態和現有技術。
第11章重點討論在大數據領域中通過部署有效的MDM和元數據策略來創建數據驅動的架構。它強調對數據管理的這兩大支柱的需求,特彆是在大數據領域。該章還討論語義層和基於語義網的方法。
第12章的重點是管理大數據的生命周期,包括哪些數據是基本的,在處理前和處理後如何以及在哪裏保存數據。還將討論企業大數據中如果不實現一個魯棒的ILM策略會帶來哪些問題。
第13章涉及使用大數據的最終目標,也就是提供強大的可視化,分析大數據,最重要的是,新興的數據科學傢的角色。這裏的目標是為你提供關於這些主題的概念性的想法以及它們如何影響整體的大數據策略。
第14章著重介紹在財富500強企業的下一代數據倉庫的實際實施中的最終架構。目的是當你的企業演化到新的數據領域後,為你提供一些麵嚮未來的想法。
附錄附錄A展示具體的客戶案例研究。
附錄B給齣建設醫療保健信息工廠的案例研究。
緻 謝本書的齣版離不開太多人的支持,我要感謝他們在本書的齣版過程中給予的支持和幫助。
首先,我要感謝我的妻子和兩個兒子一直以
大數據與數據倉庫:集成、架構與管理 epub pdf mobi txt 電子書 下載 2024
大數據與數據倉庫:集成、架構與管理 下載 epub mobi pdf txt 電子書