Apache Kylin权威指南

Apache Kylin权威指南 pdf epub mobi txt 电子书 下载 2025

Apache Kylin核心团队 著
图书标签:
  • Apache Kylin
  • OLAP
  • 大数据分析
  • 数据仓库
  • Cube
  • 查询加速
  • Hadoop
  • Spark
  • BI
  • 实时分析
想要找书就要到 静思书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 机械工业出版社
ISBN:9787111557012
版次:1
商品编码:12114572
品牌:机工出版
包装:平装
丛书名: 大数据技术丛书
开本:16开
出版时间:2017-01-01
用纸:胶版纸
页数:188

具体描述

内容简介

  本书第1章介绍ApacheKylin的历史、技术原理和产品定位,帮助用户了解何时和为何使用Kylin。第2章通过一个具体的案例快速入门,讲解Kylin核心概念、Cube建模和SQL连接查询这些基本使用。第3、4章讲解增量构建和进一步的流式构建,是大多数案例典型配置。第5、6章是针对查询和可视化、Cube调优的两个专门章节,适合较高级的用户。第7章是一系列有行业特点的具体案例分析,贯穿之前的所有概念。第8、9章讲ApacheKylin的扩展和企业级高级功能,技术性较强,会有较多的代码示例。第10章讲运维管理,从安装配置、监控维护到常见的问题和修复。全书后两章谈ApacheKylin开源社区和项目发展规划。

作者简介

  本书将由李扬为首的麒麟技术团队撰写。团队是Apache Kylin的主创团队,是了解麒麟技术的一个团队。
  李扬是大数据架构师和工程师,专注大数据分析技术。他是Apache Kylin管理委员会成员,也是Kyligence Inc.(一家专业提供大数据商务智能服务的创业公司)创始人之一。李扬是Apache Kylin主创团队的架构师和技术负责人,在eBay期间从2014年开始开发Kylin项目。之前,李扬在IBM工作8年,在摩根士丹利工作2年。在IBM期间,他是“杰出技术贡献奖”的获奖者,曾担任InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构。在摩根士丹利期间,李扬担任副总裁,负责全球监管报表基础架构。

目录

推荐序推荐序二推荐序三推荐序四前言第1章Apache Kylin概述
1.1背景和历史
1.2ApacheKyin的使命
1.3 ApacheKylin的工作原理
1.3.1维度和度量简介
1.3.2 Cube和Cuboid
1.3.3工作原理 。
1.4 ApacheKylin的技术架构
1.5 ApacheKylin的主要特点
1.5.1标准SQL接口
1.5.2支持超大数据集
1.5.3亚秒级响应
1.5.4可伸缩性和高吞吐率
1.5.5 BI及可视化工具集成
1.6与其他开源产品比较
1.7小结第2章快速入门
2.1核心概念
2.1.1数据仓库、OLAP与BI
2.1.2维度和度量
2.1.3事实表和维度表
2.1.4 Cube、Cuboid和
Cube Segment
2.2在Hive中准备数据
2.2.1星形模型
2.2.2维度表的设计
2.2.3 Hive表分区
2.2.4了解维度的基数
2.2.5 SampleData
2.3设计Cube
2.3.1导入Hive表定义
2.3.2创建数据模型
2.3.3创建CubP
2.4构建Cube
第3章增量构建
第4章流式构建
第5章查询和可视化
第6章Cube优化
第7章应用案例分析
第8章扩展Apache Kyin
第9章Apache Kyin的企业级功能
第10章运维管理
第11章参与开源
第12章Apache Kyin的未来

前言/序言

  “麒麟出没,必有祥瑞。”
  ——中国古谚语“于我而言,与Apache Kylin团队一起合作使Kylin通过孵化成为顶级项目是非常激动人心的,诚然,Kylin在技术方面非常振奋人心,但同样令人兴奋的是Kylin代表了亚洲国家,特别是中国,在开源社区中越来越高的参与度。”
  -Ted Dunning Apache孵化项目副总裁,MapR首席应用架构师今天,随着移动互联网、物联网、AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的“资产”。如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索、分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析。而现在,这一问题已经变成了如何从海量的超大规模数据中快速获取有价值的信息,新的时代、新的挑战、新的技术必然应运而生。
  在数据分析领域,大部分的技术都诞生在国外,特别是美国,从最初的数据库,到以Hadoop为首的大数据技术,再到今天各种DL( Deep Learning)、AI,等等。但我国拥有着世界上独一无二的“大”数据,最多的人口、最多的移动设备、最活跃的应用市场、最复杂的网络环境等,应对这些挑战,我们需要有自己的核心技术,特别是在基础领域的突破和研发方面。今天,以Apache Kylin为首的各种来自中国的先进技术不断涌现,甚至在很多方面都大大超越了国外的其他技术,这一点也彰显了中国的技术实力。
  自Hadoop选取大象伊始,上百个项目,以动物居之者为多,而其中唯有Apache Kylin(麒麟)来自中国,在众多项目中分外突出。在全球最大的开源基金会-Apache软件基金会(Apache Software Foundation,ASF)的1 60多个顶级项目中,Apache Kylin是唯一一个来自中国的顶级开源项目,与Apache Hadoop、Apache Spark、Apache Kafka、Apache Tomcat、?Apache Struts、Apache Maven等顶级项目一起以The Apache Way构建了开源大数据领域的国际社区,并拓展了生态系统。
  大数据与传统技术最大的区别就在于数据的体量对查询带来的巨大挑战。从最早使用大数据技术来做批量处理,到现在越来越多地需要大数据平台也能够如传统数据仓库技术一样支持交互式分析。随着数据量的不断膨胀,数据平民化的不断推进,低延迟、高并发地在Hadoop之上提供标准SQL查询的能力成为必须要攻破的技术难题。而Apache Kylin的诞生正是基于这个背景,并成功地完成了很多人认为不可能实现的突破。Apache Kylin最初诞生于eBay中国研发中心(坐落于上海浦东新区的德国中心),在2013年9月底,eBay中国研发中心的技术人员开始对此进行POC并组建团队,经过一年的艰苦开发和测试,于2014年9月30日使其正式上线,并在第二天(2014年10月1日)正式开源。
  在这个过程中,使用何种技术,如何进行架构,如何突破那些看似无法完成的挑战,整个开发团队和用户一起经历了一段艰难的历程。今天呈现出的Apache Kylin已经经历了上千亿乃至上万亿规模数据量的分析请求,以及上百家公司的实际生产环境的检验,成为各个公司大数据分析平台不可替代的重要部分。本书将从Apache Kylin的架构和设计、各个模块的使用、与第三方的整合、二次开发及开源实践等方面进行讲解,为各位读者呈现最核心的设计理念和哲学、算法和技术等。
  Apache Kylin社区的发展不易,自2014年10月开源到今天已有两年,从最初的几个人发展到今天的几十个贡献者,国内外上百家公司在正式使用,连续两年获得InfoWorld BossieAwards最佳开源大数据工具奖。来自核心团队、贡献者、用户、导师、基金会等的帮助和无私的奉献铸就了这个活跃的社区,也使得Apache Kylin得以在越来越多的场景下发挥作用。
  现在,由Apache Kylin核心团队撰写了本书,相信能更好地将相关的理论、设计、技术、架构等展现给各位朋友,希望能够让更多的朋友更加充分地理解Kylin的优点和使用的场景,更多地挖掘出Kylin的潜力。同时也希望本书能够鼓励并吸引更多的人参与Kylin项目和开源项目,影响更多人贡献更多的项目和技术到开源世界来。
  韩卿Apache Kylin联合创建者及项目委员会主席2016年10月

《大数据之道:从海量数据到洞察先机》 在这个数据爆炸的时代,信息如同奔腾的洪流,以惊人的速度增长、汇聚,最终形成浩瀚如烟海的数字宇宙。然而,仅仅拥有海量数据,并不能自动转化为商业价值。如何在这片数据汪洋中精准导航,挖掘出隐藏的宝藏,洞察未来趋势,是每个组织都面临的严峻挑战。本书《大数据之道:从海量数据到洞察先机》,正是一本献给所有渴望驾驭数据力量、实现业务飞跃的探索者们的实战指南。 我们身处一个前所未有的数字化转型浪潮之中。从智能手机的每一次点击,到物联网设备的持续通信,再到企业内部各种业务系统的运行日志,数据正以前所未有的维度和速度生成。这些数据包含了用户的行为模式、市场的瞬息万变、运营的效率瓶颈,乃至潜在的创新机遇。然而,传统的数据处理和分析工具,往往在面对 TB 甚至 PB 级别的数据时,显得力不从心,响应缓慢,甚至无法完成。这使得企业决策者常常处于“坐拥金山,却不知如何开采”的窘境。 《大数据之道》的核心目标,便是为读者构建一套系统性的认知框架和可行的实践方法,帮助他们理解并掌握驾驭大规模数据集的关键技术和策略。本书并非泛泛而谈,而是深入浅出地剖析大数据领域的各个重要环节,从数据的采集、存储,到数据的清洗、转换,再到数据的分析、挖掘和可视化,每一个环节都力求详尽,并提供贴合实际场景的解决方案。 第一部分:数据世界的基石——架构与存储 任何宏大的数据分析之旅,都始于坚实的基础设施。在这一部分,我们将深入探讨构建高效、可扩展大数据存储与计算架构的核心理念。我们将从分布式文件系统(DFS)的原理讲起,理解其如何克服单机存储的限制,实现海量数据的可靠存储和高效访问。读者将学习到如何设计和部署适合自身业务需求的数据湖(Data Lake)和数据仓库(Data Warehouse),理解它们在数据生命周期管理中的不同角色和协同作用。 此外,本书还将重点介绍几种主流的分布式存储技术,并对其优劣进行深入分析,帮助读者根据数据类型、访问模式和成本预算做出明智的选择。我们不仅会关注数据的“放得下”,更会关注数据的“取得到”,探讨如何通过优化存储策略、选择合适的硬件配置,以及利用数据冗余和纠错机制,确保数据的可用性和持久性。 第二部分:数据的炼金术——处理与转换 原始数据往往是杂乱无章、格式不一的,其中充斥着错误、缺失和冗余。想要从中提炼出有价值的信息,就必须经历一个严谨的数据“炼金”过程,即数据的清洗(Data Cleaning)和转换(Data Transformation)。 在这一部分,我们将系统地介绍各种常用的数据预处理技术。从缺失值填充、异常值检测与处理,到数据格式统一、重复数据删除,再到数据标准化和归一化,本书将提供一系列实用的算法和技巧。读者将学习到如何利用编程脚本或专门的数据处理工具,自动化完成这些繁琐但至关重要的任务,确保分析结果的准确性和可靠性。 更进一步,我们将探讨数据转换在构建分析模型中的核心作用。例如,如何进行特征工程(Feature Engineering),将原始特征转化为更具预测能力的特征;如何进行数据集成(Data Integration),将来自不同源头的数据进行融合,形成统一的分析视图;以及如何进行数据采样(Data Sampling),在保证统计效用的前提下,降低处理大规模数据集的计算复杂度。 第三部分:智慧的火花——分析与洞察 数据分析是大数据价值实现的终极目标。当数据被有效地存储、清洗和转换后,我们便可以施展各种“智慧的火花”,从数据中挖掘出宝贵的洞察。 本书将系统地梳理当前大数据分析领域的主流方法和技术。我们将从描述性分析(Descriptive Analytics)入手,学习如何通过统计指标、图表和仪表盘,清晰地呈现历史数据和当前状态。接着,我们将深入探讨诊断性分析(Diagnostic Analytics),探究“为什么会发生”的根本原因。 本书的重点将放在预测性分析(Predictive Analytics)和规范性分析(Prescriptive Analytics)上。读者将学习到如何利用机器学习算法,如线性回归、逻辑回归、决策树、随机森林、支持向量机、聚类算法等,构建模型来预测未来趋势、识别潜在风险和发现隐藏的模式。我们还将介绍时间序列分析(Time Series Analysis)在预测未来走势中的应用,以及关联规则挖掘(Association Rule Mining)在发现商品之间联系等方面的作用。 此外,本书还将触及图分析(Graph Analytics)在社交网络分析、推荐系统等领域的强大能力,以及自然语言处理(Natural Language Processing, NLP)在文本数据分析中的广泛应用,例如情感分析、主题建模等。 第四部分:沟通的桥梁——可视化与报告 再精妙的分析,如果无法有效地传达给决策者,其价值将大打折扣。数据可视化(Data Visualization)和数据报告(Data Reporting)是连接数据分析结果与业务决策的关键桥梁。 在这一部分,我们将探讨优秀数据可视化的原则和技巧。读者将学习如何选择合适的图表类型(如柱状图、折线图、散点图、热力图、地理图等),以最直观、最清晰的方式呈现数据信息。我们将介绍一些流行的数据可视化工具和库,并演示如何利用它们创建交互式仪表盘,使复杂的数据变得易于理解和探索。 同时,本书还将指导读者如何撰写有说服力的数据报告。一份好的报告,不仅要呈现数据,更要讲述数据背后的故事,提供 actionable insights(可操作的见解)。我们将学习如何清晰地组织报告结构,提炼关键信息,并用简洁明了的语言解释分析方法和结论,最终帮助业务部门做出更明智的决策。 第五部分:实践的升华——案例与挑战 理论的学习离不开实践的检验。《大数据之道》的最后一部分,将聚焦于大数据在不同行业的实际应用案例。我们将剖析金融、零售、医疗、制造、互联网等多个领域,是如何利用大数据技术解决实际业务问题的。通过深入分析这些成功案例,读者可以获得启发,将书中知识迁移到自己的业务场景中。 同时,我们也会正视大数据领域所面临的挑战,包括数据安全与隐私保护、数据治理、人才短缺、技术选型困惑等。本书将提供一些应对这些挑战的策略和最佳实践,帮助读者在推进大数据项目时少走弯路。 《大数据之道:从海量数据到洞察先机》旨在成为您在大数据旅程中的可靠伙伴。无论您是技术专家、数据分析师,还是对数据驱动决策充满热情的产品经理或业务负责人,本书都将为您提供宝贵的知识和实用的工具,帮助您解锁数据的无限潜能,驱动业务持续增长,最终在激烈的市场竞争中,抢占先机,成就非凡。让我们一起踏上这场激动人心的大数据探索之旅!

用户评价

评分

我对 OLAP 和数据预计算领域一直有着浓厚的兴趣,一直想找到一本能够系统性讲解 Apache Kylin 的书籍。《Apache Kylin权威指南》这本书的到来,正好满足了我的需求。这本书的专业性和权威性毋庸置疑。书中深入探讨了 Kylin 的设计理念,以及其在解决大数据 OLAP 难题方面的独特之处。我特别欣赏书中关于 Cube 理论的详细阐述,包括不同聚合方式对查询性能的影响,以及如何通过维度层级来优化 Cube 的构建。书中还对 Kylin 的分布式架构进行了详尽的分析,包括任务调度、数据存储和查询执行的整个流程。我对于书中关于 Kylin 与其他大数据组件(如 Kafka、Spark、Flink)的集成方案也给予了高度评价,这为构建一个完整的大数据分析平台提供了宝贵的参考。总而言之,这本书为我提供了一个全面、深入了解 Apache Kylin 的机会,也为我进一步研究和应用 Kylin 打下了坚实的基础。

评分

我一直对数据分析领域的新技术很感兴趣,最近偶然看到一本叫做《Apache Kylin权威指南》的书,虽然我还没来得及深入研读,但光从目录和前言来看,就让我对它充满了期待。这本书的结构安排非常合理,从基础概念的讲解,到实际应用的部署和优化,层层递进,逻辑清晰。我尤其关注其中关于 Kylin 核心架构的阐述,比如预计算 Cube 的原理、Mondrian 的 OLAP 功能如何与 Kylin 结合,以及 HBase 作为存储层在性能上的考量。书中还提到了很多实战案例,比如如何处理海量数据,如何进行多维度的即席查询,以及如何与其他大数据生态系统(如 Spark、Hive)进行集成。这些内容对我来说非常宝贵,因为我目前正在负责一个需要处理PB级别数据的项目,而 Kylin 的出现,似乎为我们提供了一种更高效、更灵活的解决方案。我期待着在这本书的指导下,能够更好地理解 Kylin 的工作机制,并将其应用到实际工作中,解决我们在数据分析过程中遇到的瓶颈。这本书不仅仅是一本技术手册,更像是一位经验丰富的老兵,在为你铺平道路,让你少走弯路。

评分

我是一名刚刚接触大数据分析不久的新手,在学习过程中,经常会遇到各种各样的问题,尤其是在理解一些复杂的分布式系统时,常常感到迷茫。《Apache Kylin权威指南》这本书的出现,就像是一盏指路明灯,为我扫清了前进道路上的迷雾。这本书的语言风格通俗易懂,即使是对于初学者来说,也不会感到晦涩难懂。书中从最基础的概念讲起,循序渐进地介绍了 Kylin 的原理和架构,让我能够逐步建立起对这个系统的认知。我尤其喜欢书中关于 Kylin 核心算法的讲解,比如预计算是如何工作的,以及它如何在大数据量下实现秒级查询。书中还提供了很多图示和代码示例,这些都大大帮助我理解抽象的概念。此外,书中还介绍了一些常见问题的解决方案,以及如何进行故障排查,这对于新手来说尤为重要。我非常有信心,在读完这本书后,能够独立完成 Kylin 的部署和基本应用,开启我的大数据分析之旅。

评分

作为一个在数据仓库领域摸爬滚打多年的老兵,我深知数据分析的痛点所在。面对日益增长的数据量和用户对即时响应的需求,传统的分析方案往往显得力不从心。直到我翻开了《Apache Kylin权威指南》,我才看到了突破的曙光。这本书的深度和广度都令人印象深刻。它并没有流于表面,而是深入剖析了 Kylin 的每一个组件,从预计算引擎到查询引擎,再到存储层,都做了详尽的解释。我特别喜欢书中关于 Cube 设计的章节,它详细讲解了如何根据业务需求来构建最优的 Cube,以及如何通过维度建模来提升查询性能。书中还引入了大量实际场景中的优化技巧,例如如何调整 Kylin 的配置参数,如何利用 HBase 的特性来加速查询,以及如何进行数据预处理以减少 Cube 的大小。这些实用的建议,对于那些想要在生产环境中部署和优化 Kylin 的用户来说,无疑是无价之宝。这本书不仅仅是理论知识的堆砌,更是作者多年实践经验的结晶,读起来让人茅塞顿开,受益匪浅。

评分

在当前大数据技术百家争鸣的时代,能够找到一本系统、详实介绍某一特定技术栈的书籍实属不易。《Apache Kylin权威指南》就是这样一本难得的好书。它不仅仅是简单的操作指南,更是一本对 Kylin 进行深度剖析的著作。我尤其关注书中关于 Kylin 性能调优的部分,作者分享了许多经过实践检验的技巧,例如如何合理设置内存、如何优化查询语句、以及如何对 Cube 进行增量构建等等,这些都能够帮助我们在实际应用中显著提升 Kylin 的查询效率。书中对 Kylin 的容错和高可用性机制的讲解也十分到位,这对于保障生产环境的稳定运行至关重要。我还注意到书中提到了 Kylin 在不同业务场景下的应用案例,这让我能够更好地理解 Kylin 的灵活性和适用性。总的来说,这本书为我提供了一个更加全面和深入的视角来理解 Apache Kylin,它是我在 Kylin 技术道路上不可或缺的参考。

评分

书是正版的,正在自学中,值得拥有

评分

书是正版的,正在自学中,值得拥有

评分

好书好书不错

评分

好书,值得一看,一如既往的满意

评分

公司技术同事看,还不错

评分

挺好的,没有磨损

评分

支持国产apache开源软件

评分

好薄的一本啊

评分

送个书都送不到本人手上随便交个同事 都不知道来了没有

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有