Apache Kylin權威指南

Apache Kylin權威指南 pdf epub mobi txt 電子書 下載 2025

Apache Kylin核心團隊 著
圖書標籤:
  • Apache Kylin
  • OLAP
  • 大數據分析
  • 數據倉庫
  • Cube
  • 查詢加速
  • Hadoop
  • Spark
  • BI
  • 實時分析
想要找書就要到 靜思書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 機械工業齣版社
ISBN:9787111557012
版次:1
商品編碼:12114572
品牌:機工齣版
包裝:平裝
叢書名: 大數據技術叢書
開本:16開
齣版時間:2017-01-01
用紙:膠版紙
頁數:188

具體描述

內容簡介

  本書第1章介紹ApacheKylin的曆史、技術原理和産品定位,幫助用戶瞭解何時和為何使用Kylin。第2章通過一個具體的案例快速入門,講解Kylin核心概念、Cube建模和SQL連接查詢這些基本使用。第3、4章講解增量構建和進一步的流式構建,是大多數案例典型配置。第5、6章是針對查詢和可視化、Cube調優的兩個專門章節,適閤較高級的用戶。第7章是一係列有行業特點的具體案例分析,貫穿之前的所有概念。第8、9章講ApacheKylin的擴展和企業級高級功能,技術性較強,會有較多的代碼示例。第10章講運維管理,從安裝配置、監控維護到常見的問題和修復。全書後兩章談ApacheKylin開源社區和項目發展規劃。

作者簡介

  本書將由李揚為首的麒麟技術團隊撰寫。團隊是Apache Kylin的主創團隊,是瞭解麒麟技術的一個團隊。
  李揚是大數據架構師和工程師,專注大數據分析技術。他是Apache Kylin管理委員會成員,也是Kyligence Inc.(一傢專業提供大數據商務智能服務的創業公司)創始人之一。李揚是Apache Kylin主創團隊的架構師和技術負責人,在eBay期間從2014年開始開發Kylin項目。之前,李揚在IBM工作8年,在摩根士丹利工作2年。在IBM期間,他是“傑齣技術貢獻奬”的獲奬者,曾擔任InfoSphere BigInsights的技術負責人,負責Hadoop開源産品架構。在摩根士丹利期間,李揚擔任副總裁,負責全球監管報錶基礎架構。

目錄

推薦序推薦序二推薦序三推薦序四前言第1章Apache Kylin概述
1.1背景和曆史
1.2ApacheKyin的使命
1.3 ApacheKylin的工作原理
1.3.1維度和度量簡介
1.3.2 Cube和Cuboid
1.3.3工作原理 。
1.4 ApacheKylin的技術架構
1.5 ApacheKylin的主要特點
1.5.1標準SQL接口
1.5.2支持超大數據集
1.5.3亞秒級響應
1.5.4可伸縮性和高吞吐率
1.5.5 BI及可視化工具集成
1.6與其他開源産品比較
1.7小結第2章快速入門
2.1核心概念
2.1.1數據倉庫、OLAP與BI
2.1.2維度和度量
2.1.3事實錶和維度錶
2.1.4 Cube、Cuboid和
Cube Segment
2.2在Hive中準備數據
2.2.1星形模型
2.2.2維度錶的設計
2.2.3 Hive錶分區
2.2.4瞭解維度的基數
2.2.5 SampleData
2.3設計Cube
2.3.1導入Hive錶定義
2.3.2創建數據模型
2.3.3創建CubP
2.4構建Cube
第3章增量構建
第4章流式構建
第5章查詢和可視化
第6章Cube優化
第7章應用案例分析
第8章擴展Apache Kyin
第9章Apache Kyin的企業級功能
第10章運維管理
第11章參與開源
第12章Apache Kyin的未來

前言/序言

  “麒麟齣沒,必有祥瑞。”
  ——中國古諺語“於我而言,與Apache Kylin團隊一起閤作使Kylin通過孵化成為頂級項目是非常激動人心的,誠然,Kylin在技術方麵非常振奮人心,但同樣令人興奮的是Kylin代錶瞭亞洲國傢,特彆是中國,在開源社區中越來越高的參與度。”
  -Ted Dunning Apache孵化項目副總裁,MapR首席應用架構師今天,隨著移動互聯網、物聯網、AI等技術的快速興起,數據成為瞭所有這些技術背後最重要,也是最有價值的“資産”。如何從數據中獲得有價值的信息?這個問題驅動瞭相關技術的發展,從最初的基於文件的檢索、分析程序,到數據倉庫理念的誕生,再到基於數據庫的商業智能分析。而現在,這一問題已經變成瞭如何從海量的超大規模數據中快速獲取有價值的信息,新的時代、新的挑戰、新的技術必然應運而生。
  在數據分析領域,大部分的技術都誕生在國外,特彆是美國,從最初的數據庫,到以Hadoop為首的大數據技術,再到今天各種DL( Deep Learning)、AI,等等。但我國擁有著世界上獨一無二的“大”數據,最多的人口、最多的移動設備、最活躍的應用市場、最復雜的網絡環境等,應對這些挑戰,我們需要有自己的核心技術,特彆是在基礎領域的突破和研發方麵。今天,以Apache Kylin為首的各種來自中國的先進技術不斷湧現,甚至在很多方麵都大大超越瞭國外的其他技術,這一點也彰顯瞭中國的技術實力。
  自Hadoop選取大象伊始,上百個項目,以動物居之者為多,而其中唯有Apache Kylin(麒麟)來自中國,在眾多項目中分外突齣。在全球最大的開源基金會-Apache軟件基金會(Apache Software Foundation,ASF)的1 60多個頂級項目中,Apache Kylin是唯一一個來自中國的頂級開源項目,與Apache Hadoop、Apache Spark、Apache Kafka、Apache Tomcat、?Apache Struts、Apache Maven等頂級項目一起以The Apache Way構建瞭開源大數據領域的國際社區,並拓展瞭生態係統。
  大數據與傳統技術最大的區彆就在於數據的體量對查詢帶來的巨大挑戰。從最早使用大數據技術來做批量處理,到現在越來越多地需要大數據平颱也能夠如傳統數據倉庫技術一樣支持交互式分析。隨著數據量的不斷膨脹,數據平民化的不斷推進,低延遲、高並發地在Hadoop之上提供標準SQL查詢的能力成為必須要攻破的技術難題。而Apache Kylin的誕生正是基於這個背景,並成功地完成瞭很多人認為不可能實現的突破。Apache Kylin最初誕生於eBay中國研發中心(坐落於上海浦東新區的德國中心),在2013年9月底,eBay中國研發中心的技術人員開始對此進行POC並組建團隊,經過一年的艱苦開發和測試,於2014年9月30日使其正式上綫,並在第二天(2014年10月1日)正式開源。
  在這個過程中,使用何種技術,如何進行架構,如何突破那些看似無法完成的挑戰,整個開發團隊和用戶一起經曆瞭一段艱難的曆程。今天呈現齣的Apache Kylin已經經曆瞭上韆億乃至上萬億規模數據量的分析請求,以及上百傢公司的實際生産環境的檢驗,成為各個公司大數據分析平颱不可替代的重要部分。本書將從Apache Kylin的架構和設計、各個模塊的使用、與第三方的整閤、二次開發及開源實踐等方麵進行講解,為各位讀者呈現最核心的設計理念和哲學、算法和技術等。
  Apache Kylin社區的發展不易,自2014年10月開源到今天已有兩年,從最初的幾個人發展到今天的幾十個貢獻者,國內外上百傢公司在正式使用,連續兩年獲得InfoWorld BossieAwards最佳開源大數據工具奬。來自核心團隊、貢獻者、用戶、導師、基金會等的幫助和無私的奉獻鑄就瞭這個活躍的社區,也使得Apache Kylin得以在越來越多的場景下發揮作用。
  現在,由Apache Kylin核心團隊撰寫瞭本書,相信能更好地將相關的理論、設計、技術、架構等展現給各位朋友,希望能夠讓更多的朋友更加充分地理解Kylin的優點和使用的場景,更多地挖掘齣Kylin的潛力。同時也希望本書能夠鼓勵並吸引更多的人參與Kylin項目和開源項目,影響更多人貢獻更多的項目和技術到開源世界來。
  韓卿Apache Kylin聯閤創建者及項目委員會主席2016年10月

《大數據之道:從海量數據到洞察先機》 在這個數據爆炸的時代,信息如同奔騰的洪流,以驚人的速度增長、匯聚,最終形成浩瀚如煙海的數字宇宙。然而,僅僅擁有海量數據,並不能自動轉化為商業價值。如何在這片數據汪洋中精準導航,挖掘齣隱藏的寶藏,洞察未來趨勢,是每個組織都麵臨的嚴峻挑戰。本書《大數據之道:從海量數據到洞察先機》,正是一本獻給所有渴望駕馭數據力量、實現業務飛躍的探索者們的實戰指南。 我們身處一個前所未有的數字化轉型浪潮之中。從智能手機的每一次點擊,到物聯網設備的持續通信,再到企業內部各種業務係統的運行日誌,數據正以前所未有的維度和速度生成。這些數據包含瞭用戶的行為模式、市場的瞬息萬變、運營的效率瓶頸,乃至潛在的創新機遇。然而,傳統的數據處理和分析工具,往往在麵對 TB 甚至 PB 級彆的數據時,顯得力不從心,響應緩慢,甚至無法完成。這使得企業決策者常常處於“坐擁金山,卻不知如何開采”的窘境。 《大數據之道》的核心目標,便是為讀者構建一套係統性的認知框架和可行的實踐方法,幫助他們理解並掌握駕馭大規模數據集的關鍵技術和策略。本書並非泛泛而談,而是深入淺齣地剖析大數據領域的各個重要環節,從數據的采集、存儲,到數據的清洗、轉換,再到數據的分析、挖掘和可視化,每一個環節都力求詳盡,並提供貼閤實際場景的解決方案。 第一部分:數據世界的基石——架構與存儲 任何宏大的數據分析之旅,都始於堅實的基礎設施。在這一部分,我們將深入探討構建高效、可擴展大數據存儲與計算架構的核心理念。我們將從分布式文件係統(DFS)的原理講起,理解其如何剋服單機存儲的限製,實現海量數據的可靠存儲和高效訪問。讀者將學習到如何設計和部署適閤自身業務需求的數據湖(Data Lake)和數據倉庫(Data Warehouse),理解它們在數據生命周期管理中的不同角色和協同作用。 此外,本書還將重點介紹幾種主流的分布式存儲技術,並對其優劣進行深入分析,幫助讀者根據數據類型、訪問模式和成本預算做齣明智的選擇。我們不僅會關注數據的“放得下”,更會關注數據的“取得到”,探討如何通過優化存儲策略、選擇閤適的硬件配置,以及利用數據冗餘和糾錯機製,確保數據的可用性和持久性。 第二部分:數據的煉金術——處理與轉換 原始數據往往是雜亂無章、格式不一的,其中充斥著錯誤、缺失和冗餘。想要從中提煉齣有價值的信息,就必須經曆一個嚴謹的數據“煉金”過程,即數據的清洗(Data Cleaning)和轉換(Data Transformation)。 在這一部分,我們將係統地介紹各種常用的數據預處理技術。從缺失值填充、異常值檢測與處理,到數據格式統一、重復數據刪除,再到數據標準化和歸一化,本書將提供一係列實用的算法和技巧。讀者將學習到如何利用編程腳本或專門的數據處理工具,自動化完成這些繁瑣但至關重要的任務,確保分析結果的準確性和可靠性。 更進一步,我們將探討數據轉換在構建分析模型中的核心作用。例如,如何進行特徵工程(Feature Engineering),將原始特徵轉化為更具預測能力的特徵;如何進行數據集成(Data Integration),將來自不同源頭的數據進行融閤,形成統一的分析視圖;以及如何進行數據采樣(Data Sampling),在保證統計效用的前提下,降低處理大規模數據集的計算復雜度。 第三部分:智慧的火花——分析與洞察 數據分析是大數據價值實現的終極目標。當數據被有效地存儲、清洗和轉換後,我們便可以施展各種“智慧的火花”,從數據中挖掘齣寶貴的洞察。 本書將係統地梳理當前大數據分析領域的主流方法和技術。我們將從描述性分析(Descriptive Analytics)入手,學習如何通過統計指標、圖錶和儀錶盤,清晰地呈現曆史數據和當前狀態。接著,我們將深入探討診斷性分析(Diagnostic Analytics),探究“為什麼會發生”的根本原因。 本書的重點將放在預測性分析(Predictive Analytics)和規範性分析(Prescriptive Analytics)上。讀者將學習到如何利用機器學習算法,如綫性迴歸、邏輯迴歸、決策樹、隨機森林、支持嚮量機、聚類算法等,構建模型來預測未來趨勢、識彆潛在風險和發現隱藏的模式。我們還將介紹時間序列分析(Time Series Analysis)在預測未來走勢中的應用,以及關聯規則挖掘(Association Rule Mining)在發現商品之間聯係等方麵的作用。 此外,本書還將觸及圖分析(Graph Analytics)在社交網絡分析、推薦係統等領域的強大能力,以及自然語言處理(Natural Language Processing, NLP)在文本數據分析中的廣泛應用,例如情感分析、主題建模等。 第四部分:溝通的橋梁——可視化與報告 再精妙的分析,如果無法有效地傳達給決策者,其價值將大打摺扣。數據可視化(Data Visualization)和數據報告(Data Reporting)是連接數據分析結果與業務決策的關鍵橋梁。 在這一部分,我們將探討優秀數據可視化的原則和技巧。讀者將學習如何選擇閤適的圖錶類型(如柱狀圖、摺綫圖、散點圖、熱力圖、地理圖等),以最直觀、最清晰的方式呈現數據信息。我們將介紹一些流行的數據可視化工具和庫,並演示如何利用它們創建交互式儀錶盤,使復雜的數據變得易於理解和探索。 同時,本書還將指導讀者如何撰寫有說服力的數據報告。一份好的報告,不僅要呈現數據,更要講述數據背後的故事,提供 actionable insights(可操作的見解)。我們將學習如何清晰地組織報告結構,提煉關鍵信息,並用簡潔明瞭的語言解釋分析方法和結論,最終幫助業務部門做齣更明智的決策。 第五部分:實踐的升華——案例與挑戰 理論的學習離不開實踐的檢驗。《大數據之道》的最後一部分,將聚焦於大數據在不同行業的實際應用案例。我們將剖析金融、零售、醫療、製造、互聯網等多個領域,是如何利用大數據技術解決實際業務問題的。通過深入分析這些成功案例,讀者可以獲得啓發,將書中知識遷移到自己的業務場景中。 同時,我們也會正視大數據領域所麵臨的挑戰,包括數據安全與隱私保護、數據治理、人纔短缺、技術選型睏惑等。本書將提供一些應對這些挑戰的策略和最佳實踐,幫助讀者在推進大數據項目時少走彎路。 《大數據之道:從海量數據到洞察先機》旨在成為您在大數據旅程中的可靠夥伴。無論您是技術專傢、數據分析師,還是對數據驅動決策充滿熱情的産品經理或業務負責人,本書都將為您提供寶貴的知識和實用的工具,幫助您解鎖數據的無限潛能,驅動業務持續增長,最終在激烈的市場競爭中,搶占先機,成就非凡。讓我們一起踏上這場激動人心的大數據探索之旅!

用戶評價

評分

我是一名剛剛接觸大數據分析不久的新手,在學習過程中,經常會遇到各種各樣的問題,尤其是在理解一些復雜的分布式係統時,常常感到迷茫。《Apache Kylin權威指南》這本書的齣現,就像是一盞指路明燈,為我掃清瞭前進道路上的迷霧。這本書的語言風格通俗易懂,即使是對於初學者來說,也不會感到晦澀難懂。書中從最基礎的概念講起,循序漸進地介紹瞭 Kylin 的原理和架構,讓我能夠逐步建立起對這個係統的認知。我尤其喜歡書中關於 Kylin 核心算法的講解,比如預計算是如何工作的,以及它如何在大數據量下實現秒級查詢。書中還提供瞭很多圖示和代碼示例,這些都大大幫助我理解抽象的概念。此外,書中還介紹瞭一些常見問題的解決方案,以及如何進行故障排查,這對於新手來說尤為重要。我非常有信心,在讀完這本書後,能夠獨立完成 Kylin 的部署和基本應用,開啓我的大數據分析之旅。

評分

作為一個在數據倉庫領域摸爬滾打多年的老兵,我深知數據分析的痛點所在。麵對日益增長的數據量和用戶對即時響應的需求,傳統的分析方案往往顯得力不從心。直到我翻開瞭《Apache Kylin權威指南》,我纔看到瞭突破的曙光。這本書的深度和廣度都令人印象深刻。它並沒有流於錶麵,而是深入剖析瞭 Kylin 的每一個組件,從預計算引擎到查詢引擎,再到存儲層,都做瞭詳盡的解釋。我特彆喜歡書中關於 Cube 設計的章節,它詳細講解瞭如何根據業務需求來構建最優的 Cube,以及如何通過維度建模來提升查詢性能。書中還引入瞭大量實際場景中的優化技巧,例如如何調整 Kylin 的配置參數,如何利用 HBase 的特性來加速查詢,以及如何進行數據預處理以減少 Cube 的大小。這些實用的建議,對於那些想要在生産環境中部署和優化 Kylin 的用戶來說,無疑是無價之寶。這本書不僅僅是理論知識的堆砌,更是作者多年實踐經驗的結晶,讀起來讓人茅塞頓開,受益匪淺。

評分

在當前大數據技術百傢爭鳴的時代,能夠找到一本係統、詳實介紹某一特定技術棧的書籍實屬不易。《Apache Kylin權威指南》就是這樣一本難得的好書。它不僅僅是簡單的操作指南,更是一本對 Kylin 進行深度剖析的著作。我尤其關注書中關於 Kylin 性能調優的部分,作者分享瞭許多經過實踐檢驗的技巧,例如如何閤理設置內存、如何優化查詢語句、以及如何對 Cube 進行增量構建等等,這些都能夠幫助我們在實際應用中顯著提升 Kylin 的查詢效率。書中對 Kylin 的容錯和高可用性機製的講解也十分到位,這對於保障生産環境的穩定運行至關重要。我還注意到書中提到瞭 Kylin 在不同業務場景下的應用案例,這讓我能夠更好地理解 Kylin 的靈活性和適用性。總的來說,這本書為我提供瞭一個更加全麵和深入的視角來理解 Apache Kylin,它是我在 Kylin 技術道路上不可或缺的參考。

評分

我對 OLAP 和數據預計算領域一直有著濃厚的興趣,一直想找到一本能夠係統性講解 Apache Kylin 的書籍。《Apache Kylin權威指南》這本書的到來,正好滿足瞭我的需求。這本書的專業性和權威性毋庸置疑。書中深入探討瞭 Kylin 的設計理念,以及其在解決大數據 OLAP 難題方麵的獨特之處。我特彆欣賞書中關於 Cube 理論的詳細闡述,包括不同聚閤方式對查詢性能的影響,以及如何通過維度層級來優化 Cube 的構建。書中還對 Kylin 的分布式架構進行瞭詳盡的分析,包括任務調度、數據存儲和查詢執行的整個流程。我對於書中關於 Kylin 與其他大數據組件(如 Kafka、Spark、Flink)的集成方案也給予瞭高度評價,這為構建一個完整的大數據分析平颱提供瞭寶貴的參考。總而言之,這本書為我提供瞭一個全麵、深入瞭解 Apache Kylin 的機會,也為我進一步研究和應用 Kylin 打下瞭堅實的基礎。

評分

我一直對數據分析領域的新技術很感興趣,最近偶然看到一本叫做《Apache Kylin權威指南》的書,雖然我還沒來得及深入研讀,但光從目錄和前言來看,就讓我對它充滿瞭期待。這本書的結構安排非常閤理,從基礎概念的講解,到實際應用的部署和優化,層層遞進,邏輯清晰。我尤其關注其中關於 Kylin 核心架構的闡述,比如預計算 Cube 的原理、Mondrian 的 OLAP 功能如何與 Kylin 結閤,以及 HBase 作為存儲層在性能上的考量。書中還提到瞭很多實戰案例,比如如何處理海量數據,如何進行多維度的即席查詢,以及如何與其他大數據生態係統(如 Spark、Hive)進行集成。這些內容對我來說非常寶貴,因為我目前正在負責一個需要處理PB級彆數據的項目,而 Kylin 的齣現,似乎為我們提供瞭一種更高效、更靈活的解決方案。我期待著在這本書的指導下,能夠更好地理解 Kylin 的工作機製,並將其應用到實際工作中,解決我們在數據分析過程中遇到的瓶頸。這本書不僅僅是一本技術手冊,更像是一位經驗豐富的老兵,在為你鋪平道路,讓你少走彎路。

評分

《Apache Kylin權威指南》研發學習必備

評分

好書一本,是學習技術的好書

評分

很好很好很好很好很好很好

評分

麒麟官方齣品,值得參考經驗和思想,OLAP我看好,Kylin加油

評分

好書好書不錯

評分

好書要頂,大緻瀏覽瞭一下 非常不錯的入門書籍

評分

好書好書,希望這樣的活動再猛烈些!

評分

用瞭券後250-150,真心劃算哦

評分

內容不多,講解還是比較全...比官網詳細很多,入門首選!

相關圖書

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有