YL13743 9787111589266 9787115443304
本书详细介绍了数据科学项目的三个阶段。准备阶段进行信息收集;构建阶段将计划付诸行动,利用准备阶段获得的信息以及相关统计和软件提供的可用工具来构建产品;交付阶段进行产品的交付、反馈及修改等。本书在介绍过程中会教你如何预见问题以及如何处理不确定性,一步步引导你完成软件和科学思维的佳实践。
本书赞誉
中文版序
中文版序二
译者序
前言
致谢
关于本书
关于原书封面插图
第一部分 准备和收集数据与知识
第1章 数据科学的逻辑 2
1.1 数据科学与本书 4
1.2 意识的可贵 7
1.3 研发人员与数据科学家 9
1.4 需要成为软件研发者吗 12
1.5 需要明白统计学吗 13
1.6 优先级:知识、技术、观点 14
1.7 最佳实践 17
1.8 阅读本书:我怎么讨论概念 23
小结 24
第2章 通过好的提问设置目标 26
2.1聆听客户 27
2.2提出关于数据的好问题 37
2.3用数据回答问题 42
2.4设定目标 48
2.5计划要有弹性 50
练习 51
小结 51
第3章 周围的数据:虚拟的荒野 52
3.1数据作为研究对象 52
3.2数据可能存在的地方,以及如何与之交互 62
3.3数据侦察 80
3.4案例:microRNA与基因表达 89
练习 94
小结 95
第4章 数据整理:从捕捉到驯化 96
4.1案例研究:最佳田径表演 97
4.2准备整理数据 101
4.3技巧与工具 109
4.4常见的陷阱 112
练习 119
小结 119
第5章 数据评估:动手检查 120
5.1案例:安然的电子邮件数据 121
5.2描述性统计 123
5.3检查数据的假设 130
5.4寻找特定的实体 134
5.5大概的统计分析 140
练习 147
小结 147
第二部分 构建软件和统计产品
第6章 制订计划 150
6.1学到了什么 152
6.2重新考虑期望和目标 158
6.3规划 164
6.4沟通新目标 175
练习 176
小结 177
第7章 统计建模:概念与基础 178
7.1如何看待统计 179
7.2统计学:与数据科学相关的领域 180
7.3数学 184
7.4统计模型与推理 194
7.5其他的统计方法 218
练习 227
小结 227
第8章 软件:统计学在行动 229
8.1电子表格和用户图形界面应用 230
8.2编程 239
8.3选择统计软件工具 264
8.4把统计转换成软件 271
练习 277
小结 278
第9章 辅助软件:更大、更快、更高效 279
9.1数据库 280
9.2高性能计算 287
9.3云服务 290
9.4大数据技术 293
9.5XX即服务 297
练习 298
小结 298
第10章 执行计划:汇总 299
10.1执行计划的诀窍 300
10.2修改计划 308
10.3结果:知道什么时候足够好 310
10.4案例研究:基因活性测定协议 315
练习 328
小结 329
第三部分 整理产品结束项目
第11章 交付产品 332
11.1了解客户 333
11.2交付形式 335
11.3内容 345
11.4案例:分析电子游戏 351
练习 353
小结 353
第12章 交付后:问题与修改 354
12.1产品及其使用问题 354
12.2反馈 364
12.3产品修改 370
练习 377
小结 378
第13章 结束:项目善后 379
13.1项目善后 380
13.2从项目中学习 392
13.3展望未来 396
练习 398
小结 399
练习:案例与答案 400
(1) 概念篇:介绍当前紧密关联的*新IT领域技术云计算、大数据和物联网。
(2) 大数据存储与管理篇:介绍分布式数据存储的概念、原理和技术,包括HDFS、HBase、NoSQL数据库、云数据库。
(3) 大数据处理与分析篇:介绍MapReduce分布式编程框架、基于内存的分布式计算框架Spark、图计算、流计算、数据可视化。
(4) 大数据应用篇:介绍基于大数据技术的推荐系统。
第一篇 大数据基础
第1章 大数据概述 2
1.1 大数据时代 2
1.1.1 第三次信息化浪潮 2
1.1.2 信息科技为大数据时代提供
技术支撑 3
1.1.3 数据产生方式的变革促成大数据时代的来临 5
1.1.4 大数据的发展历程 6
1.2 大数据的概念 7
1.2.1 数据量大 7
1.2.2 数据类型繁多 8
1.2.3 处理速度快 9
1.2.4 价值密度低 9
1.3 大数据的影响 9
1.3.1 大数据对科学研究的影响 10
1.3.2 大数据对思维方式的影响 11
1.3.3 大数据对社会发展的影响 11
1.3.4 大数据对就业市场的影响 12
1.3.5 大数据对人才培养的影响 13
1.4 大数据的应用 14
1.5 大数据关键技术 14
1.6 大数据计算模式 15
1.6.1 批处理计算 16
1.6.2 流计算 16
1.6.3 图计算 16
1.6.4 查询分析计算 17
1.7 大数据产业 17
1.8 大数据与云计算、物联网 18
1.8.1 云计算 18
1.8.2 物联网 21
1.8.3 大数据与云计算、物联网的关系 25
1.9 本章小结 26
1.10 习题 26
第2章 大数据处理架构Hadoop 28
2.1 概述 28
2.1.1 Hadoop简介 28
2.1.2 Hadoop的发展简史 28
2.1.3 Hadoop的特性 29
2.1.4 Hadoop的应用现状 29
2.1.5 Hadoop的版本 30
2.2 Hadoop生态系统 30
2.2.1 HDFS 31
2.2.2 HBase 31
2.2.3 MapReduce 31
2.2.4 Hive 32
2.2.5 Pig 32
2.2.6 Mahout 32
2.2.7 Zookeeper 32
2.2.8 Flume 32
2.2.9 Sqoop 32
2.2.10 Ambari 33
2.3 Hadoop的安装与使用 33
2.3.1 创建Hadoop用户 33
2.3.2 Java的安装 34
2.3.3 SSH登录权限设置 34
2.3.4 安装单机Hadoop 34
2.3.5 Hadoop伪分布式安装 35
2.4 本章小结 37
2.5 习题 38
实验1 安装Hadoop 38
第二篇 大数据存储与管理
第3章 分布式文件系统HDFS 42
3.1 分布式文件系统 42
3.1.1 计算机集群结构 42
3.1.2 分布式文件系统的结构 43
3.1.3 分布式文件系统的设计需求 44
3.2 HDFS简介 44
3.3 HDFS的相关概念 45
3.3.1 块 45
3.3.2 名称节点和数据节点 46
3.3.3 第二名称节点 47
3.4 HDFS体系结构 48
3.4.1 概述 48
3.4.2 HDFS命名空间管理 49
3.4.3 通信协议 49
3.4.4 客户端 50
3.4.5 HDFS体系结构的局限性 50
3.5 HDFS的存储原理 50
3.5.1 数据的冗余存储 50
3.5.2 数据存取策略 51
3.5.3 数据错误与恢复 52
3.6 HDFS的数据读写过程 53
3.6.1 读数据的过程 53
3.6.2 写数据的过程 54
3.7 HDFS编程实践 55
3.7.1 HDFS常用命令 55
3.7.2 HDFS的Web界面 56
3.7.3 HDFS常用Java API及应用实例 57
3.8 本章小结 60
3.9 习题 61
实验2 熟悉常用的HDFS操作 61
第4章 分布式数据库HBase 63
4.1 概述 63
4.1.1 从BigTable说起 63
4.1.2 HBase简介 63
4.1.3 HBase与传统关系数据库的
对比分析 64
4.2 HBase访问接口 65
4.3 HBase数据模型 66
4.3.1 数据模型概述 66
4.3.2 数据模型的相关概念 66
4.3.3 数据坐标 67
4.3.4 概念视图 68
4.3.5 物理视图 69
4.3.6 面向列的存储 69
4.4 HBase的实现原理 71
4.4.1 HBase的功能组件 71
4.4.2 表和Region 71
4.4.3 Region的定位 72
4.5 HBase运行机制 74
4.5.1 HBase系统架构 74
4.5.2 Region服务器的工作原理 76
4.5.3 Store的工作原理 77
4.5.4 HLog的工作原理 77
4.6 HBase编程实践 78
4.6.1 HBase常用的Shell命令 78
4.6.2 HBase常用的Java API及
应用实例 80
4.7 本章小结 90
4.8 习题 90
实验3 熟悉常用的HBase操作 91
第5章 NoSQL数据库 94
5.1 NoSQL简介 94
5.2 NoSQL兴起的原因 95
5.2.1 关系数据库无法满足 ..........
老实说,我一开始对这本书的期待值并没有那么高,抱着随便看看的心态入手的,毕竟市面上关于大数据的书籍太多了,质量参差不齐。但读了几章之后,我真的惊喜到了。作者的写作风格非常接地气,语言通俗易懂,没有过多地堆砌那些晦涩难懂的专业术语,即使是像我这样刚开始接触大数据领域的人,也能很快理解其中的概念。书中对大数据技术栈的介绍,从Hadoop生态圈到Spark,再到各种数据库和数据仓库,都进行了详细的讲解,并且给出了很多代码示例,这对于想要动手实践的读者来说,简直是福音。我尤其喜欢书中关于数据挖掘和机器学习的部分,讲解得非常清晰,从基础算法到高级模型,都有涉及,并且配以图示,让复杂的理论变得生动起来。这本书不仅仅停留在理论层面,它还强调了实际应用,提供了大量的案例研究,涵盖了电商、医疗、交通等多个领域,让我看到了大数据在现实世界中的巨大潜力。读完这本书,我感觉自己对大数据有了更全面、更深入的认识,也更有信心去探索这个领域了。
评分这本书的逻辑结构设计得非常合理,从基础概念的铺垫,到核心技术的解析,再到实际应用的展示,层层递进,引人入胜。作者在讲解技术原理时,并没有生硬地罗列公式和算法,而是通过生动的比喻和形象的图解,将抽象的概念具体化,让读者能够轻松掌握。比如,在讲解分布式计算原理时,作者就用“团队合作”来类比,形象地解释了任务分解和并行处理的过程。书中对不同数据存储和处理技术(如HDFS、MapReduce、Spark、Hive等)的比较分析,也做得非常到位,清晰地指出了它们各自的优缺点和适用场景,这对于我们在实际项目中选择合适的技术方案,提供了非常有价值的参考。此外,本书在数据分析和可视化方面的内容也相当丰富,介绍了各种常用的分析方法和工具,并提供了如何将数据转化为有洞察力的信息的方法。读完这本书,我感觉自己不仅在技术层面有了很大的提升,在思维方式上也受到了启发,学会了如何用更系统、更全面的视角来看待和解决大数据相关的问题。
评分我是一名在校的学生,对大数据技术充满了好奇。在老师的推荐下,我阅读了这本书。刚开始接触大数据,很多概念都觉得很陌生,但这本书就像一位耐心的老师,一步一步地引导我进入这个奇妙的世界。书中对大数据产生的背景、发展历程的介绍,让我对大数据有了宏观的认识。接着,书中对大数据核心技术,如分布式文件系统、分布式计算框架、数据仓库、数据挖掘算法等,都进行了非常详细的讲解。最让我感到惊喜的是,书中提供的很多代码示例都非常贴近实际应用,我跟着书中的代码,在自己的电脑上进行了多次实践,不仅加深了对理论知识的理解,还学会了如何利用这些技术解决实际问题。书中还涉及了大数据在不同行业的应用案例,这让我看到了大数据技术的广阔前景,也更加坚定了自己学习大数据技术的决心。这本书不仅满足了我对大数据的好奇心,更让我对未来的学习和职业规划有了更清晰的方向。
评分说实话,这本书的厚度一开始让我有些望而却步,但当我真正沉浸其中时,却发现时间过得飞快。作者的叙述风格非常流畅,文字间充满了对大数据领域的热情和深刻理解。我尤其欣赏书中对于“数据即未来”这一理念的深入探讨,作者不仅阐述了数据的重要性,更描绘了数据驱动的未来社会将如何发展,以及我们在其中应该扮演的角色。在技术层面,这本书的讲解非常细致,从底层架构到上层应用,几乎涵盖了大数据领域的方方面面。我特别关注了书中关于数据质量管理和数据伦理的部分,这两个话题在当前越来越受到重视,作者在这方面提供了很多前瞻性的观点和实用的建议。书中还详细介绍了各种大数据分析工具的使用方法,并提供了大量的练习题,帮助读者巩固所学知识。读这本书,我感觉自己就像在与一位经验丰富的数据科学家对话,他的智慧和见解,让我受益匪浅。这本书绝对是大数据领域的一本经典之作。
评分这本书的封面设计就很有吸引力,一种未来感和科技感扑面而来。我当初选择它,很大程度上也是被这个“数据即未来”的口号所吸引。现在的数据时代,谁掌握了数据,谁就掌握了未来,这绝对不是空穴来风。拿到书后,翻了几页,就感觉作者功力深厚,从宏观层面阐述了大数据的重要性,又深入浅出地剖析了其技术原理。书中涉及到的概念,比如数据采集、存储、处理、分析、可视化等等,都解释得非常透彻。特别是关于数据治理和数据安全的部分,在当今信息爆炸的时代,这些是至关重要的问题,作者在这方面给出了很多有价值的思考和实践建议。我特别欣赏书中举的那些实际案例,很多都是来自真实世界的商业应用,让我能更直观地理解大数据在各个行业是如何发挥作用的,比如在金融风控、精准营销、智能制造等领域,都提到了具体的解决方案和效果。这本书对于想要了解大数据,或者已经在从事大数据相关工作,希望提升理论和实操能力的朋友来说,绝对是一本不可多得的好书。它不仅仅是一本技术手册,更是一本关于如何驾驭数据、创造价值的指南。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有