包邮数据即未来：大数据王者之道+大数据技术原理与应用大数据技术书籍数据科学 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[美] 布瑞恩·戈德西，林子雨著

图书标签:

大数据
数据科学
数据分析
大数据技术
大数据应用
机器学习
人工智能
商业智能
数据挖掘
包邮

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静思书屋

book.idnshop.cc

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

店铺：旷氏文豪图书专营店

出版社：机械工业

ISBN：9787111589266

商品编码：26395081570

开本：16

出版时间：2017-02-01

具体描述

YL13743 9787111589266 9787115443304

数据即未来：大数据王者之道

本书详细介绍了数据科学项目的三个阶段。准备阶段进行信息收集；构建阶段将计划付诸行动，利用准备阶段获得的信息以及相关统计和软件提供的可用工具来构建产品；交付阶段进行产品的交付、反馈及修改等。本书在介绍过程中会教你如何预见问题以及如何处理不确定性，一步步引导你完成软件和科学思维的佳实践。

本书赞誉
中文版序
中文版序二
译者序
前言
致谢
关于本书
关于原书封面插图
第一部分　准备和收集数据与知识
第1章　数据科学的逻辑 2
1.1　数据科学与本书 4
1.2　意识的可贵 7
1.3　研发人员与数据科学家 9
1.4　需要成为软件研发者吗 12
1.5　需要明白统计学吗 13
1.6　优先级：知识、技术、观点 14
1.7　最佳实践 17
1.8 阅读本书：我怎么讨论概念 23
小结 24
第2章　通过好的提问设置目标 26
2.1聆听客户 27
2.2提出关于数据的好问题 37
2.3用数据回答问题 42
2.4设定目标 48
2.5计划要有弹性 50
练习 51
小结 51
第3章　周围的数据：虚拟的荒野 52
3.1数据作为研究对象 52
3.2数据可能存在的地方，以及如何与之交互 62
3.3数据侦察 80
3.4案例：microRNA与基因表达 89
练习 94
小结 95
第4章　数据整理：从捕捉到驯化 96
4.1案例研究：最佳田径表演 97
4.2准备整理数据 101
4.3技巧与工具 109
4.4常见的陷阱 112
练习 119
小结 119
第5章　数据评估：动手检查 120
5.1案例：安然的电子邮件数据 121
5.2描述性统计 123
5.3检查数据的假设 130
5.4寻找特定的实体 134
5.5大概的统计分析 140
练习 147
小结 147
第二部分　构建软件和统计产品
第6章　制订计划 150
6.1学到了什么 152
6.2重新考虑期望和目标 158
6.3规划 164
6.4沟通新目标 175
练习 176
小结 177
第7章　统计建模：概念与基础 178
7.1如何看待统计 179
7.2统计学：与数据科学相关的领域 180
7.3数学 184
7.4统计模型与推理 194
7.5其他的统计方法 218
练习 227
小结 227
第8章　软件：统计学在行动 229
8.1电子表格和用户图形界面应用 230
8.2编程 239
8.3选择统计软件工具 264
8.4把统计转换成软件 271
练习 277
小结 278
第9章　辅助软件：更大、更快、更高效 279
9.1数据库 280
9.2高性能计算 287
9.3云服务 290
9.4大数据技术 293
9.5XX即服务 297
练习 298
小结 298
第10章　执行计划：汇总 299
10.1执行计划的诀窍 300
10.2修改计划 308
10.3结果：知道什么时候足够好 310
10.4案例研究：基因活性测定协议 315
练习 328
小结 329
第三部分　整理产品结束项目
第11章　交付产品 332
11.1了解客户 333
11.2交付形式 335
11.3内容 345
11.4案例：分析电子游戏 351
练习 353
小结 353
第12章　交付后：问题与修改 354
12.1产品及其使用问题 354
12.2反馈 364
12.3产品修改 370
练习 377
小结 378
第13章　结束：项目善后 379
13.1项目善后 380
13.2从项目中学习 392
13.3展望未来 396
练习 398
小结 399
练习：案例与答案 400

大数据技术原理与应用（第2版）

（1）概念篇：介绍当前紧密关联的*新IT领域技术云计算、大数据和物联网。
（2）大数据存储与管理篇：介绍分布式数据存储的概念、原理和技术，包括HDFS、HBase、NoSQL数据库、云数据库。
（3）大数据处理与分析篇：介绍MapReduce分布式编程框架、基于内存的分布式计算框架Spark、图计算、流计算、数据可视化。
（4）大数据应用篇：介绍基于大数据技术的推荐系统。

第一篇大数据基础

第1章　大数据概述　2
1．1　大数据时代　2
1．1．1　第三次信息化浪潮　2
1．1．2　信息科技为大数据时代提供
技术支撑　3
1．1．3　数据产生方式的变革促成大数据时代的来临　5
1．1．4　大数据的发展历程　6
1．2　大数据的概念　7
1．2．1　数据量大　7
1．2．2　数据类型繁多　8
1．2．3　处理速度快　9
1．2．4　价值密度低　9
1．3　大数据的影响　9
1．3．1　大数据对科学研究的影响　10
1．3．2　大数据对思维方式的影响　11
1．3．3　大数据对社会发展的影响　11
1．3．4　大数据对就业市场的影响　12
1．3．5　大数据对人才培养的影响　13
1．4　大数据的应用　14
1．5　大数据关键技术　14
1．6　大数据计算模式　15
1．6．1　批处理计算　16
1．6．2　流计算　16
1．6．3　图计算　16
1．6．4　查询分析计算　17
1．7　大数据产业　17
1．8　大数据与云计算、物联网　18
1．8．1　云计算　18
1．8．2　物联网　21
1．8．3　大数据与云计算、物联网的关系　25
1．9　本章小结　26
1．10　习题　26
第2章　大数据处理架构Hadoop　28
2．1　概述　28
2．1．1　Hadoop简介　28
2．1．2　Hadoop的发展简史　28
2．1．3　Hadoop的特性　29
2．1．4　Hadoop的应用现状　29
2．1．5　Hadoop的版本　30
2．2　Hadoop生态系统　30
2．2．1　HDFS　31
2．2．2　HBase　31
2．2．3　MapReduce　31
2．2．4　Hive　32
2．2．5　Pig　32
2．2．6　Mahout　32
2．2．7　Zookeeper　32
2．2．8　Flume　32
2．2．9　Sqoop　32
2．2．10　Ambari　33
2．3　Hadoop的安装与使用　33
2．3．1　创建Hadoop用户　33
2．3．2　Java的安装　34
2．3．3　SSH登录权限设置　34
2．3．4　安装单机Hadoop　34
2．3．5　Hadoop伪分布式安装　35
2．4　本章小结　37
2．5　习题　38
实验1　安装Hadoop　38

第二篇　大数据存储与管理

第3章　分布式文件系统HDFS　42
3．1　分布式文件系统　42
3．1．1　计算机集群结构　42
3．1．2　分布式文件系统的结构　43
3．1．3　分布式文件系统的设计需求　44
3．2　HDFS简介　44
3．3　HDFS的相关概念　45
3．3．1　块　45
3．3．2　名称节点和数据节点　46
3．3．3　第二名称节点　47
3．4　HDFS体系结构　48
3．4．1　概述　48
3．4．2　HDFS命名空间管理　49
3．4．3　通信协议　49
3．4．4　客户端　50
3．4．5　HDFS体系结构的局限性　50
3．5　HDFS的存储原理　50
3．5．1　数据的冗余存储　50
3．5．2　数据存取策略　51
3．5．3　数据错误与恢复　52
3．6　HDFS的数据读写过程　53
3．6．1　读数据的过程　53
3．6．2　写数据的过程　54
3．7　HDFS编程实践　55
3．7．1　HDFS常用命令　55
3．7．2　HDFS的Web界面　56
3．7．3　HDFS常用Java API及应用实例　57
3．8　本章小结　60
3．9　习题　61
实验2　熟悉常用的HDFS操作　61
第4章　分布式数据库HBase　63
4．1　概述　63
4．1．1　从BigTable说起　63
4．1．2　HBase简介　63
4．1．3　HBase与传统关系数据库的
对比分析　64
4．2　HBase访问接口　65
4．3　HBase数据模型　66
4．3．1　数据模型概述　66
4．3．2　数据模型的相关概念　66
4．3．3　数据坐标　67
4．3．4　概念视图　68
4．3．5　物理视图　69
4．3．6　面向列的存储　69
4．4　HBase的实现原理　71
4．4．1　HBase的功能组件　71
4．4．2　表和Region　71
4．4．3　Region的定位　72
4．5　HBase运行机制　74
4．5．1　HBase系统架构　74
4．5．2　Region服务器的工作原理　76
4．5．3　Store的工作原理　77
4．5．4　HLog的工作原理　77
4．6　HBase编程实践　78
4．6．1　HBase常用的Shell命令　78
4．6．2　HBase常用的Java API及
应用实例　80
4．7　本章小结　90
4．8　习题　90
实验3　熟悉常用的HBase操作　91
第5章　NoSQL数据库　94
5．1　NoSQL简介　94
5．2　NoSQL兴起的原因　95
5．2．1　关系数据库无法满足 ..........

《数据驱动的决策艺术：从洞察到行动的商业转型之路》在这个信息爆炸的时代，数据早已不再是单纯的数字集合，而是驱动企业增长、塑造市场格局、引领未来方向的核心生产要素。然而，仅仅拥有数据远不足以实现商业的跃升。真正的力量在于如何从海量数据中挖掘出有价值的洞察，并将这些洞察转化为切实可行的商业策略，最终实现可持续的增长和竞争优势。本书将带领您踏上一条数据驱动的决策艺术之旅，系统性地阐述如何构建一个以数据为核心的商业生态系统，从数据采集、处理、分析到最终的决策落地，全面揭示大数据时代的商业运作之道。第一章：数据时代的黎明——商业智能的演进与大数据浪潮本章将首先回顾商业智能（BI）的发展历程，解析其在企业决策中的早期作用和局限性。随后，我们将深入探讨大数据技术的兴起如何颠覆了传统的商业分析模式，引发了一场深刻的商业范式变革。我们将分析大数据之所以成为“未来”的关键驱动力，其“海量、高速、多样”的特征如何为企业带来了前所未有的机遇和挑战。通过历史的视角，读者将能更清晰地理解当前大数据技术在商业应用中的重要性和紧迫性。第二章：数据源的探秘——构建可靠的数据采集与整合体系数据的价值始于其质量和可用性。本章将聚焦于如何构建一个强大而可靠的数据采集与整合体系。我们将探讨多种数据源的类型，包括但不限于：来自交易系统、客户关系管理（CRM）系统、社交媒体、物联网设备、传感器以及第三方数据提供商等。我们将详细介绍各种数据采集技术，例如ETL（Extract, Transform, Load）流程、API集成、流式数据处理（如Kafka, Kinesis）等。此外，本章还将强调数据清洗、去重、标准化和数据治理的重要性，确保进入分析环节的数据是准确、完整且一致的，为后续的洞察挖掘奠定坚实基础。第三章：数据的清洗与转换——为价值挖掘铺平道路原始数据往往是杂乱无章的，充斥着错误、缺失和不一致。本章将深入讲解数据清洗与转换的艺术。我们将介绍常用的数据预处理技术，包括：处理缺失值（插补、删除）、异常值检测与处理、数据类型转换、格式统一、以及数据降维等。同时，我们将探讨数据转换的重要性，例如特征工程（Feature Engineering），如何根据业务需求创建新的、更有意义的特征，以提升模型的预测能力和解释力。本章将通过具体的案例，展示高质量数据预处理对数据分析结果的决定性影响。第四章：洞察的显微镜——深入理解数据分析的核心方法论在完成数据准备后，我们就需要借助各种分析工具和方法来揭示数据背后的奥秘。本章将系统介绍多种数据分析的核心方法论，包括：描述性分析 (Descriptive Analytics): 如何通过统计学方法（均值、中位数、方差、分布等）和可视化技术（图表、仪表盘）来理解数据的现状和历史趋势。诊断性分析 (Diagnostic Analytics): 如何深入探究“为什么”会发生某事，通过溯源分析、关联分析、根本原因分析等技术，找出事件发生的原因和影响因素。预测性分析 (Predictive Analytics): 如何利用机器学习算法（如回归分析、分类算法、时间序列分析）来预测未来的趋势、客户行为、市场需求等。规范性分析 (Prescriptive Analytics): 如何基于预测结果，提供最优的决策建议，指导企业采取何种行动以达到预期目标，例如优化定价、推荐策略、风险管理等。第五章：可视化语言——让数据说话，驱动决策再复杂的分析结果，如果无法清晰地传达给决策者，其价值将大打折扣。本章将聚焦于数据可视化，将其视为一种强大的沟通语言。我们将探讨不同类型的数据可视化图表（柱状图、折线图、散点图、饼图、热力图、地图等）的应用场景及其优缺点。我们将介绍如何设计有效的仪表盘（Dashboard），将关键指标、趋势和洞察一目了然地呈现给决策者。此外，本章还将讨论可视化在故事叙述（Data Storytelling）中的作用，如何通过视觉化的叙事方式，引导观众理解数据、相信洞察，并最终促使行动。第六章：智能引擎——机器学习在商业决策中的实践应用机器学习是驱动大数据分析走向智能化的核心技术。本章将深入探讨机器学习在实际商业场景中的应用。我们将介绍几种关键的机器学习算法及其在不同业务问题中的运用：分类算法：用于客户细分、欺诈检测、垃圾邮件过滤、信用评分等。回归算法：用于销售预测、房价预测、广告点击率预测等。聚类算法：用于市场细分、异常检测、推荐系统等。关联规则挖掘：用于商品推荐、购物篮分析、关联营销等。自然语言处理 (NLP): 用于情感分析、文本挖掘、智能客服、舆情监控等。本章将注重算法原理的简要介绍，更侧重于其在实际业务问题中的落地应用和解决思路。第七章：构建数据驱动的组织——文化、人才与技术基石技术是工具，而组织文化和人才则是实现数据驱动转型的关键。本章将探讨如何构建一个真正以数据为导向的组织。我们将分析数据驱动文化的构成要素，例如鼓励数据探索、容忍试错、基于数据的质疑精神。我们将深入讨论在不同岗位上（数据科学家、数据分析师、业务分析师、数据工程师等）所需的数据素养和技能。此外，本章还将强调技术基石的重要性，包括云计算、分布式存储、分布式计算框架（如Spark, Hadoop）以及现代数据仓库和数据湖的概念，为大规模数据的处理和分析提供支撑。第八章：数据伦理与安全——负责任的数据利用随着数据价值的日益凸显，数据伦理和安全问题也变得尤为重要。本章将讨论在数据收集、处理和使用过程中可能遇到的伦理困境，例如隐私保护、数据偏见、算法歧视等。我们将介绍相关的法律法规（如GDPR, CCPA），以及企业在数据安全方面应采取的最佳实践，包括数据加密、访问控制、匿名化处理、安全审计等。本章旨在引导读者认识到，负责任的数据利用不仅是合规要求，更是构建企业长期信誉和可持续发展的基石。第九章：案例研究——数据驱动的商业成功典范为了让读者更直观地理解前文所述的理论和方法，本章将精选一系列来自不同行业的成功案例。我们将深入剖析这些企业如何利用数据驱动战略，解决了具体的业务挑战，取得了显著的商业成就。案例将涵盖电商平台的个性化推荐、金融机构的风险评估、医疗行业的疾病预测、制造业的智能生产优化、以及零售业的客户行为分析等。通过对真实世界案例的深度解读，读者将能获得宝贵的实践经验和启发。第十章：迈向未来——人工智能与数据驱动的下一波浪潮人工智能（AI）正与大数据深度融合，共同塑造着商业的未来。本章将展望人工智能在数据驱动决策中的更广阔前景，例如深度学习、强化学习等前沿技术如何进一步提升预测精度和自动化决策能力。我们将讨论AI如何赋能更复杂的业务场景，例如自主驾驶、智能制造、虚拟助手等。同时，本章也将探讨在AI时代，数据科学家和业务决策者需要具备哪些新的技能和思维模式，以应对未来的挑战与机遇。本书并非一本单纯的技术手册，而是一本关于如何将数据转化为商业价值的行动指南。它旨在赋能读者，让他们能够熟练掌握数据驱动的决策艺术，在日新月异的商业环境中，发现机遇、规避风险，最终引领企业走向成功。无论您是初涉数据领域的新手，还是希望深化数据应用的企业管理者，亦或是寻求技术突破的专业人士，本书都将是您宝贵的参考。

用户评价

评分☆☆☆☆☆

说实话，这本书的厚度一开始让我有些望而却步，但当我真正沉浸其中时，却发现时间过得飞快。作者的叙述风格非常流畅，文字间充满了对大数据领域的热情和深刻理解。我尤其欣赏书中对于“数据即未来”这一理念的深入探讨，作者不仅阐述了数据的重要性，更描绘了数据驱动的未来社会将如何发展，以及我们在其中应该扮演的角色。在技术层面，这本书的讲解非常细致，从底层架构到上层应用，几乎涵盖了大数据领域的方方面面。我特别关注了书中关于数据质量管理和数据伦理的部分，这两个话题在当前越来越受到重视，作者在这方面提供了很多前瞻性的观点和实用的建议。书中还详细介绍了各种大数据分析工具的使用方法，并提供了大量的练习题，帮助读者巩固所学知识。读这本书，我感觉自己就像在与一位经验丰富的数据科学家对话，他的智慧和见解，让我受益匪浅。这本书绝对是大数据领域的一本经典之作。

评分☆☆☆☆☆

我是一名在校的学生，对大数据技术充满了好奇。在老师的推荐下，我阅读了这本书。刚开始接触大数据，很多概念都觉得很陌生，但这本书就像一位耐心的老师，一步一步地引导我进入这个奇妙的世界。书中对大数据产生的背景、发展历程的介绍，让我对大数据有了宏观的认识。接着，书中对大数据核心技术，如分布式文件系统、分布式计算框架、数据仓库、数据挖掘算法等，都进行了非常详细的讲解。最让我感到惊喜的是，书中提供的很多代码示例都非常贴近实际应用，我跟着书中的代码，在自己的电脑上进行了多次实践，不仅加深了对理论知识的理解，还学会了如何利用这些技术解决实际问题。书中还涉及了大数据在不同行业的应用案例，这让我看到了大数据技术的广阔前景，也更加坚定了自己学习大数据技术的决心。这本书不仅满足了我对大数据的好奇心，更让我对未来的学习和职业规划有了更清晰的方向。

评分☆☆☆☆☆

老实说，我一开始对这本书的期待值并没有那么高，抱着随便看看的心态入手的，毕竟市面上关于大数据的书籍太多了，质量参差不齐。但读了几章之后，我真的惊喜到了。作者的写作风格非常接地气，语言通俗易懂，没有过多地堆砌那些晦涩难懂的专业术语，即使是像我这样刚开始接触大数据领域的人，也能很快理解其中的概念。书中对大数据技术栈的介绍，从Hadoop生态圈到Spark，再到各种数据库和数据仓库，都进行了详细的讲解，并且给出了很多代码示例，这对于想要动手实践的读者来说，简直是福音。我尤其喜欢书中关于数据挖掘和机器学习的部分，讲解得非常清晰，从基础算法到高级模型，都有涉及，并且配以图示，让复杂的理论变得生动起来。这本书不仅仅停留在理论层面，它还强调了实际应用，提供了大量的案例研究，涵盖了电商、医疗、交通等多个领域，让我看到了大数据在现实世界中的巨大潜力。读完这本书，我感觉自己对大数据有了更全面、更深入的认识，也更有信心去探索这个领域了。

评分☆☆☆☆☆

这本书的逻辑结构设计得非常合理，从基础概念的铺垫，到核心技术的解析，再到实际应用的展示，层层递进，引人入胜。作者在讲解技术原理时，并没有生硬地罗列公式和算法，而是通过生动的比喻和形象的图解，将抽象的概念具体化，让读者能够轻松掌握。比如，在讲解分布式计算原理时，作者就用“团队合作”来类比，形象地解释了任务分解和并行处理的过程。书中对不同数据存储和处理技术（如HDFS、MapReduce、Spark、Hive等）的比较分析，也做得非常到位，清晰地指出了它们各自的优缺点和适用场景，这对于我们在实际项目中选择合适的技术方案，提供了非常有价值的参考。此外，本书在数据分析和可视化方面的内容也相当丰富，介绍了各种常用的分析方法和工具，并提供了如何将数据转化为有洞察力的信息的方法。读完这本书，我感觉自己不仅在技术层面有了很大的提升，在思维方式上也受到了启发，学会了如何用更系统、更全面的视角来看待和解决大数据相关的问题。

评分☆☆☆☆☆

这本书的封面设计就很有吸引力，一种未来感和科技感扑面而来。我当初选择它，很大程度上也是被这个“数据即未来”的口号所吸引。现在的数据时代，谁掌握了数据，谁就掌握了未来，这绝对不是空穴来风。拿到书后，翻了几页，就感觉作者功力深厚，从宏观层面阐述了大数据的重要性，又深入浅出地剖析了其技术原理。书中涉及到的概念，比如数据采集、存储、处理、分析、可视化等等，都解释得非常透彻。特别是关于数据治理和数据安全的部分，在当今信息爆炸的时代，这些是至关重要的问题，作者在这方面给出了很多有价值的思考和实践建议。我特别欣赏书中举的那些实际案例，很多都是来自真实世界的商业应用，让我能更直观地理解大数据在各个行业是如何发挥作用的，比如在金融风控、精准营销、智能制造等领域，都提到了具体的解决方案和效果。这本书对于想要了解大数据，或者已经在从事大数据相关工作，希望提升理论和实操能力的朋友来说，绝对是一本不可多得的好书。它不仅仅是一本技术手册，更是一本关于如何驾驭数据、创造价值的指南。