产品特色
编辑推荐
中兴大数据平台DAP团队诚意之作
大数据实践指南
结合案例
总结大数据建设实践中的经验与知识
内容简介
如果你是一名IT工程师,CTO希望你在一周内提交一份公司未来IT系统基础架构的初步建议;
如果你是一位IT营销人员,客户需要你在一周内向他汇报未来大数据系统的大致技术方向;
…
在这个信息严重过剩的时代,一周内从浩渺的技术细节的海洋中抓住关键的技术脉络,并进一步提出有一定理论依据的技术思考,这几乎是不可能完成的任务。
您是否想过阅读一本关于大数据的图书帮助解决如上问题?
浩如烟海的大数据领域图书可以大致归纳为三类:第一类是描述大数据的应用前景与社会意义;第二类是研讨大数据作为一个大型IT系统的系统架构与技术架构;第三类是研讨大数据领域的具体技术,例如HADOOP相关的编程等。
对于需要快速掌握大数据系统技术脉络,或者是需要对未来IT系统做系统思考的技术工作者来说,需要的是第二类图书所提供的系统化知识。但目前业界大数据相关的书籍与资料,大多是第一类与第三类,第二类非常稀少,以至于某些希望开展大数据课程教学的高校难以找到合适的教材与参考数据。通过阅读本书,您将可以迅速建立大数据技术架构相关的知识与脉络,而不是迷失在浩如烟海的知识细节中。
本书的目的就是为了帮助读者在短的时间内,系统地把握大数据相关的技术框架,建立系统架构级别的技术思考能力与原则。本书适用于企业的IT与大数据的从业人员,IT与大数据相关的销售人员,企业的首席技术官(CTO)、首席信息官(CIO),由于本书在大数据知识具备系统性,也可以作为高校大数据方面课程的教材或辅导书。
内页插图
目录
第一部分 大数据架构师入门
第1章 大数据概述 3
1.1 什么是大数据 4
1.2 大数据的本质 6
1.3 大数据技术当前状态 8
1.4 大数据的技术发展趋势 11
第2章 大数据项目常见场景 13
2.1 实验型部署场景 14
2.2 中小型部署场景 16
2.3 大型部署场景 19
第3章 大数据方案关键因素 23
3.1 数据存储规模与数据类型 24
3.2 数据来源与数据质量 25
3.3 业务特征 26
3.4 经济可行性 27
3.5 运维管理要求 28
3.6 安全性要求 29
3.7 部署要求 31
3.8 系统边界 32
3.9 约束条件 34
3.10 要点回顾 34
第二部分 大数据架构师基础
第4章 Hadoop基础组件 39
4.1 Hadoop简介 40
4.2 Hadoop版本演进 41
4.3 Hadoop2.0生态系统简介 42
4.4 Hadoop分布式文件系统HDFS 43
4.5 Hadoop统一资源管理框架YARN 48
4.6 Hadoop分布式计算框架MapReduce 52
4.7 Hadoop分布式集群管理系统ZooKeeper 57
第5章 Hadoop其他常用组件 61
5.1 Hadoop数据仓库工具Hive 62
5.2 Hadoop分布式数据库 HBase 65
5.3 Hadoop实时流处理引擎 Storm 70
5.4 Hadoop交互式查询引擎 Impala 74
5.5 其他常用组件 78
第6章 Spark内存计算框架 83
6.1 内存计算与Spark 84
6.2 Spark的主要概念 86
6.3 Spark核心组件介绍 96
6.4 Spark与Hadoop之间的关系 100
6.5 要点回顾 104
第7章大数据中间件层 105
7.1 中间件层简介 106
7.2 中间件层产品介绍 107
7.3 中间件层的应用 121
7.4 中间件层的发展 124
7.5 要点回顾 128
第8章大数据分析 129
8.1 数据时代 131
8.2 先进分析 133
8.3 架构与平台 136
8.4 数据分析流程 140
8.5 要点回顾 143
第9章可视化技术 145
9.1 可视化技术引言 146
9.2 什么是数据可视化 147
9.3 数据可视化设计 151
9.4 数据可视化的发展趋势 160
9.5 要点回顾 161
第10章大数据安全 163
10.1 安全体系 164
10.2 大数据系统安全 168
10.3 要点回顾 180
第11章大数据管理 181
11.1 数据管理的范围和定义 182
11.2 开源软件的管理能力 183
11.3 国内主流管理 187
11.4 大数据管理展望 195
11.5 要点回顾 195
第三部分大数据架构师实践
第12章大数据项目实践 199
12.1 大数据项目架构关键步骤 201
12.2 架构师实践思考 213
第13章大数据部署实践 217
13.1 中兴通讯DAP大数据平台功能和架构 218
13.2 DAP平台特点 219
13.3 某银行成功案例 220
第四部分 大数据架构师拓展
第14章分布式系统与大数据的关系 229
14.1 分布式系统概述 230
14.2 分布式系统关键协议和算法概述 237
14.3 分布式系统和大数据 241
第 15 章数据库系统与大数据的关系 245
15.1 数据库系统的历史 246
15.2 各类系统求同存异 258
15.3 大数据的发展展望 259
第16章云计算与大数据的关系 261
16.1 虚拟化概述 262
16.2 OpenStack云管理架构实现 267
16.3 大数据基于云计算IAAS部署的探讨 274
后记 277
前言/序言
毫无疑问,这是属于大数据的时代。随着移动互联网的进步、自媒体的风行和物联网的兴起,信息传播技术和信息传播渠道得到极大发展,海量级甚至银河级的数据不断涌现,呈现出“信息爆炸”的态势。这种情况下,似乎我们获取信息变得更加容易和方便;而实际上,由于对个体有用的信息淹没在浩如烟海的无关信息中,获取“有用信息”反而变得更加困难。
大数据相关技术就是在这种情况下应运而生的。作为一门新兴技术,大数据技术被人熟知和掌握需要一个过程;同时,由于其始终处于一个高速发展的过程,对其认识也是不断修正提高的过程。
鉴于此,本书总结了中兴通讯大数据平台DAP团队对大数据技术的最新研究成果,结合中兴大数据平台在各行业的应用实践经验,旨在帮助读者建立系统化的大数据技术脉络,并针对业界一些似是而非的问题进行系统性的讲解与澄清。阅读完本书,读者就可以基本掌握大数据技术的系统架构和核心思想。
为何要写这本书
在大数据项目建设过程中,往往需要三个层次的知识。第一个层次是关于大数据是什么,能做什么等理念方面的知识;第二个层次是如果去端到端进行大数据方案设计,要厘清大数据方案所需的关注重点,并结合具体的实践案例进行说明;第三个层次是大数据相关的基础技术知识,例如,对HDFS、MR、SPARK等技术点的掌握。
第一个层次的书籍,业界已经有很多,其中以《大数据时代》为典型代表;第三个层次的书籍,业界也比较多,读者不难获得相关的学习材料。
但第二个层次的书籍,属于承上启下的层次。该层次的知识需要从实践中总结出经验与知识。由于大型项目的建设周期长,建设复杂度高,涉及面广,所以从大型项目的实践中总结出知识有较高的难度。鉴于此,市面上该层次的大数据书籍相对较少,大数据相关的从业者或建设者较难获得这方面的知识,往往只能通过各类交流活动获取这方面的知识,不仅费时费力,而且难以将这些知识系统化。
基于如上原因,我们感觉迫切需要将我们在大型项目中积累的经验总结出来,供业界同仁参考,同时,这也可以满足我们内部人员学习大数据相关知识的需求。
本书读者对象
如果您是IT市场营销人员,或者是企业IT主管,您可以直接阅读本书的第一部分与第三部分。通过对本书第一部分与第三部分的阅读,将帮助您建立起大数据技术概念和框架。如果您对具体的大数据技术不感兴趣,可以忽略掉第二部分纯技术的内容。
如果您是大数据技术人员,本书将会是一本较好的参考资料,有助于帮助您超越自己所从事的具体模块,将您的大数据知识体系系统化。
如果您是高校大数据相关课程的老师,由于本书较为系统,可以考虑将本书作为参考书或者教材。
如果您是大数据技术爱好者,也可以将本书作为泛读书籍,让您理解当前大数据的时代。当然,读者如果能具备一定的IT基础知识,将能够更好地汲取本书中的知识。这不仅有助于您快速理解大数据相关知识,也有助于启发您对特定专题的深入思考和独到分析。
本书特色
本书是首本系统化的方案实践方面书籍,系统化地阐述了大数据方案应该如何思考,以及大数据的技术基础知识,并辅以实际的案例进行说明。
以客户化的语言,描述大数据项目建设中应该重点考虑的问题。即使不是技术专家,也能很容易地理解本书第一部分的内容。
较为系统地阐述了大数据相关的体系,可以帮助读者迅速系统化大数据相关的知识。
结合实际的案例,总结在大数据建设实践中的经验与知识。
如何阅读本书
本书内容分为四大部分,不同的读者可以选择不同的内容进行阅读。
本书第一部分是“大数据架构师入门”,以虚构角色小明的视角,去理解大数据,理解客户的烦恼,并提出构建一个大数据系统时应该从哪些方面考虑。阅读完该部分后,读者将对大数据方案具备一定的“提问题”的能力。也就是说,如果您面前有一份大数据的建设方案,即使您以前对大数据了解甚少,也可以根据本书第3章的建议,去评判方案的完整性,评判方案的深度与广度。
本书第二部分是“大数据架构师基础”,本部分将较为系统地介绍大数据相关的基础知识。如图Ⅰ-1 所示,逐个介绍基础支撑层、计算存储层、中间件层、挖掘分析/应用层、展现层各部分内容,同时,对贯穿各层的安全和管理两大模块的相关内容做介绍,力图为读者呈现一个相对完整的大数据知识架构。
图Ⅰ-1 大数据技术框架
其中,计算存储层包括Hadoop架构、Spark架构等内容;中间件层包括中间件的作用与意义,以及业界常用中间件及应用场景;挖掘分析/应用层包括非结构化数据处理,常用分析挖掘算法,数据建模与应用,数据可视化技术等内容;展现层包括可视化相关的知识与内容;安全模块包括物理安全、主机安全、网络安全、数据安全等内容;管理模块包括自动部署、自动升级、自动巡检、自动维护等内容。
本书第三部分是“大数据架构师实践”,主要包括大数据开发实践中积累的一些经验,并结合案例进行阐述。这些实战中积累的知识与智慧,将帮助理论联系实践,更好地理解大数据技术。
本书第四部分是“大数据架构师拓展”,主要包括与大数据相关的其他技术。
这些技术通常来说,并不属于大数据的技术范畴,但由于这些技术与大数据关系紧密,作为一名架构师,也需要系统地了解与思考这些相关的技术,才能对整个方案进行全局把握。该部分将试图对这些技术进行简单介绍,并试图说明这些技术与大数据之间的关系。
对于不需要关注具体技术的读者,则可以仅阅读第一部分“大数据架构师入门”;如果对具体的案例感兴趣,则可以阅读第三部分“大数据架构师实践”;如果是对技术感兴趣的读者,则可以阅读第二部分“大数据架构师基础”与第四部分“大数据架构师拓展”。
本书编写团队
大数据的知识非常广泛,不同层面的知识,以及不同技术模块的知识,很难由一个人完全掌握,所以本书是编写团队共同努力的成果。编写团队的成员都是在大数据领域担当重要工作岗位的技术骨干,大家在共同的理想与爱好下,聚集成一个团队,并为大数据架构师们完成了业界首本全面实践指导类的书籍。在此,请允许我列举参与编写的团队成员,并向他们致以诚挚的谢意。感谢他们牺牲周末与节假日的休息时间,为大家做的无私贡献。
团队成员包括:申山宏、朱科支、梁平、薛清华、马彧、李敏、郭海生、杨荣康、牛家浩、刘少麟、管云、洪科、简明、张强、艾红芳、关涛、于波、刘淑霞、郭进良、汪绍飞、周治中、王利学、黄增建、孙利军、肖文洁、周黎明。
勘误与支持
尽管我们尽了各种努力来保证文章不出错误,但由于编者水平有限,加上编写时间仓促,难免会有错讹之处。如果你在书中发现了错误,例如错别字、书写错误等,请告诉我们,我们将整理成勘误表。通过勘误表,可以帮助其他读者节省阅读时间,提高阅读体验,并可以帮助我们提供更高质量的下一版。
错误反馈请发送,或者关注“中兴大数据”微信公众号(微信号ZTE_BigData)并留言,我们将在第一时间确认反馈。勘误表可以在“中兴大数据”微信公众号上获取。
致谢
感谢中兴大数据平台DAP团队的所有成员,你们多年的潜心研究和积累是本书的基石。
感谢所有评审本书,并对本书提出过建议的朋友,你们的帮助对我们非常重要。
感谢关心本书的各界朋友,你们的关心与期望是我们的动力,更是对我们全心全意写好这本书的鞭策。
大数据架构师指南 epub pdf mobi txt 电子书 下载 2024
大数据架构师指南 下载 epub mobi pdf txt 电子书 2024