大数据导论

大数据导论 pdf epub mobi txt 电子书 下载 2025

[美] 托马斯·埃尔 著,彭智勇 译
图书标签:
  • 大数据
  • 数据分析
  • 数据挖掘
  • 机器学习
  • 云计算
  • Hadoop
  • Spark
  • 数据科学
  • 商业智能
  • Python
想要找书就要到 静思书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 机械工业出版社
ISBN:9787111565772
版次:1
商品编码:12085935
品牌:机工出版
包装:平装
丛书名: 数据科学与工程技术丛书
开本:16开
出版时间:2017-05-01
用纸:胶版纸
页数:177

具体描述

内容简介

本书是面向商业和技术专业人员的大数据指南,清楚地介绍了大数据相关的概念、理论、术语与基础技术,并使用真实连贯的商业案例以及简单的图表,帮助读者更清晰地理解大数据技术。本书可作为高等院校相关专业“大数据基础”、“大数据道路”等课程的教材,也可供有一定实践经验的软件开发人员、管理人员和所有对大数据感兴趣的人士阅读。

作者简介

  ?ThomasErlThomasErl是IT畅销书作者,Arcitura教育公司的创始人,PrenticeHall出版社“ThomasErl的服务技术丛书”的编辑。他的书发行量超过200000册,成为国际畅销书,并且已经获得多个重要IT组织成员的正式认可,例如,IBM、Microsoft、Oracle、Intel、Accenture、IEEE、HL7、MITRE、SAP、CISCO、HP等。作为Arcitura公司的CEO,Thomas领导研发了国际公认的大数据科学专家认证(BDSCP)、云专家认证(CCP)与SOA专家认证(SOACP)的课程大纲,设立了一系列正式的、与厂商无关的工业认证,全球已有数千IT从业人员获得了这些认证。Thomas还作为演讲家与教育家,在20多个国家进行过巡回演讲。Thomas已经在诸多出刊物上发表过100多篇文章和访谈,包括《华尔街日报》与《CIO杂志》。

  WajidKhattakWajidKhattak是Arcitura教育公司的大数据研究者与教育者。他的研究领域包括大数据工程与架构、数据科学、机器学习、分析学与SOA。此外,他在商务智能报告解决方案与GIS方面有着丰富的.NET软件开发经验。

  Wajid于2003年在英国伯明翰城市大学获得软件工程学士学位,于2008年在该校以杰出的成绩获得软件工程与安全硕士学位。另外,Wajid还获得了MCAD&MCTS;(Microsoft)、SOA架构师、大数据科学家、大数据工程师以及大数据研究顾问(Arcitura)认证。

  PaulBuhlerPaulBuhler博士是一位经验丰富的IT专家,他在商业公司、政府机构和学校均有过从业经验。在面向服务的计算概念、技术和实现方法领域,他是一位受人尊敬的研究者、实践者与教育者。他在XaaS领域的研究已经延伸到了云、大数据与万物互联网(IoE)。目前他的研究兴趣是通过权衡响应式设计原则与基于目标的执行方式,减少业务策略与流程执行之间的差距。

  作为Modus21的首席科学家,PaulBuhler博士根据当前业务架构与流程执行框架的发展趋势调整企业的战略布局。目前,他还是查尔斯顿学院的合作教授,负责本科生与硕士生计算机科学课程的教学工作。PaulBuhler博士在南卡罗来纳大学获得计算机工程博士学位,在约翰霍普金斯大学获得计算机科学硕士学位,在塞特多大学获得计算机科学学士学位。


目录

译者序
致谢
作者简介
第一部分 大数据基础
第1章 理解大数据3
1.1 概念与术语4
1.1.1 数据集4
1.1.2 数据分析5
1.1.3 数据分析学5
1.1.4 商务智能11
1.1.5 关键绩效指标11
1.2 大数据特征12
1.2.1 容量12
1.2.2 速率13
1.2.3 多样性13
1.2.4 真实性14
1.2.5 价值14
1.3 不同数据类型15
1.3.1 结构化数据16
1.3.2 非结构化数据17
1.3.3 半结构化数据17
1.3.4 元数据18
1.4 案例学习背景18
1.4.1 历史背景18
1.4.2 技术基础和自动化环境19
1.4.3 商业目标和障碍20
1.5 案例学习21
1.5.1 确定数据特征22
1.5.2 确定数据类型24
第2章 采用大数据的商业动机与驱动25
2.1 市场动态25
2.2 业务架构27
2.3 业务流程管理30
2.4 信息与通信技术31
2.4.1 数据分析与数据科学31
2.4.2 数字化31
2.4.3 开源技术与商用硬件32
2.4.4 社交媒体33
2.4.5 超连通社区与设备33
2.4.6 云计算34
2.5 万物互联网35
2.6 案例学习35
第3章 大数据采用及规划考虑39
3.1 组织的先决条件40
3.2 数据获取40
3.3 隐私性40
3.4 安全性41
3.5 数据来源42
3.6 有限的实时支持43
3.7 不同的性能挑战43
3.8 不同的管理需求43
3.9 不同的方法论44
3.10 云44
3.11 大数据分析的生命周期45
3.11.1 商业案例评估45
3.11.2 数据标识47
3.11.3 数据获取与过滤47
3.11.4 数据提取48
3.11.5 数据验证与清理49
3.11.6 数据聚合与表示50
3.11.7 数据分析52
3.11.8 数据可视化52
3.11.9 分析结果的使用53
3.12 案例学习54
3.12.1 大数据分析的生命周期55
3.12.2 商业案例评估55
3.12.3 数据标识56
3.12.4 数据获取与过滤56
3.12.5 数据提取57
3.12.6 数据验证与清理57
3.12.7 数据聚合与表示57
3.12.8 数据分析57
3.12.9 数据可视化58
3.12.10 分析结果的使用58
第4章 企业级技术与大数据商务智能59
4.1 联机事务处理60
4.2 联机分析处理60
4.3 抽取、转换和加载技术61
4.4 数据仓库61
4.5 数据集市62
4.6 传统商务智能62
4.6.1 即席报表63
4.6.2 仪表板63
4.7 大数据商务智能65
4.7.1 传统数据可视化65
4.7.2 大数据的数据可视化66
4.8 案例学习67
4.8.1 企业技术67
4.8.2 大数据商务智能68
第二部分 存储和分析大数据
第5章 大数据存储的概念71
5.1 集群72
5.2 文件系统和分布式文件系统72
5.3 NoSQL73
5.4 分片74
5.5 复制75
5.5.1 主从式复制76
5.5.2 对等式复制77
5.6 分片和复制80
5.6.1 结合分片和主从式复制80
5.6.2 结合分片和对等式复制81
5.7 CAP定理82
5.8 ACID85
5.9 BASE88
5.10 案例学习91
第6章 大数据处理的概念93
6.1 并行数据处理93
6.2 分布式数据处理94
6.3 Hadoop94
6.4 处理工作量95
6.4.1 批处理型95
6.4.2 事务型95
6.5 集群96
6.6 批处理模式97
6.6.1 MapReduce批处理97
6.6.2 Map和Reduce任务98
6.6.3 MapReduce的简单实例103
6.6.4 理解MapReduce算法104
6.7 实时模式处理107
6.7.1 SCV原则107
6.7.2 事件流处理110
6.7.3 复杂事件处理110
6.7.4 大数据实时处理与SCV110
6.7.5 大数据实时处理与MapReduce111
6.8 案例学习112
6.8.1 处理工作量112
6.8.2 批处理模式处理112
6.8.3 实时模式处理113
第7章 大数据存储技术115
7.1 磁盘存储设备115
7.1.1 分布式文件系统116
7.1.2 RDBMS数据库117
7.1.3 NoSQL数据库119
7.1.4 NewSQL数据库128
7.2 内存存储设备129
7.2.1 内存数据网格131
7.2.2 内存数据库138
7.3 案例学习141
第8章 大数据分析技术143
8.1 定量分析144
8.2 定性分析145
8.3 数据挖掘145
8.4 统计分析146
8.4.1 A/B测试146
8.4.2 相关性分析147
8.4.3 回归性分析149
8.5 机器学习150
8.5.1 分类(有监督的机器学习)151
8.5.2 聚类(无监督的机器学习)152
8.5.3 异常检测152
8.5.4 过滤153
8.6 语义分析154
8.6.1 自然语言处理155
8.6.2 文本分析155
8.6.3 情感分析156
8.7 视觉分析157
8.7.1 热点图157
8.7.2 时间序列图159
8.7.3 网络图160
8.7.4 空间数据制图161
8.8 案例学习162
8.8.1 相关性分析162
8.8.2 回归性分析162
8.8.3 时间序列图163
8.8.4 聚类163
8.8.5 分类163
附录A 案例结论165
索引167

前言/序言

  译者序现今,“大数据”已经成为全球科技界和企业界关注的热点。数据为王的时代已经到来,各行各业高度关注大数据的研究和应用。企业关注的重点从追求计算机的计算速度转变为追求大数据处理能力,从以软件编程为主转变为以数据为中心。在云计算技术和海量数据存储技术的助力下,大数据已经成为当前学术界、工业界的热点和焦点。大数据的出现将会对社会各个领域产生深刻影响。从公司战略到产业生态,从学术研究到生产实践,从城镇管理到国家治理,都将发生本质的变化,大数据将成为时代变革的力量。“用数据来说话、用数据来管理、用数据来决策、用数据来创新”的文化氛围与时代特征愈发鲜明。大数据时代需要一大批具备大数据知识的专业人才,他们应能有效地将数据科学和各行各业的应用相结合,推动新技术和新应用的发展。因此,掌握大数据核心技术且拥有专业领域知识的人才储备成为国家大数据战略布局的重中之重。

  在本书中,IT畅销书作者ThomasErl和他的团队清楚地解释了关键的大数据概念、理论和术语,以及基本的大数据技术和方法。本书分两部分:第一部分主要从商业相关问题的讨论引出大数据的驱动力,解释了如何通过大数据推动企业的发展,介绍了大数据的应用背景和基本概念;第二部分主要是大数据技术相关问题的讨论,重点介绍了大数据的存储技术和分析方法。本书的特色在于每一章后都有案例学习,用一家大型的保险公司ETI对大数据的应用案例贯穿始终,为相关章节的知识应用提供了现实场景,以加深读者对大数据实际应用的认识。另外,本书大量应用了简单的图表说明。这些都使得本书非常实用且通俗易懂,因此,本书特别适合作为了解大数据基本知识和相关技术的入门教材,也可以作为高校的通识课教材来使用。

  在本书翻译过程中,武汉大学计算机学院的刘歆文、李卓、史成良、陈洪洋、贺潇雅、万言历、陈昊等同学做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。

  由于译者能力有限,译稿难免存在疏漏及不足之处,望广大读者不吝赐教。



探秘宇宙的语言:从星辰大海到基因密码的宏伟叙事 这不是一本关于庞杂数据分析技术、算法模型或商业决策的书。它是一次穿越时空的邀请,一次对构成万物深层秩序的求索,一次关于信息如何编织现实的宏大叙事。我们将一同踏上一段远离二进制代码和数据库洪流的旅程,去探寻隐藏在宇宙万象之下的,那令人惊叹的“大数据”——即一切事物赖以存在的,最本质、最丰富的信息织锦。 第一章:自混沌到秩序——宇宙的起源与信息之初 在一切存在之前,是混沌,是量子涨落的虚无。然而,即便在这看似无序的状态中,也孕育着信息最原始的火花。宇宙大爆炸,不仅仅是一次能量的释放,更是一次信息生成的奇点。从最初的基本粒子,到氢氦的形成,再到恒星的诞生与死亡,每一次宇宙尺度的演化,都是信息不断累积、转化、重塑的过程。我们所见的星辰大海,并非只是冰冷的物质集合,它们是宇宙诞生以来,无数信息相互作用、遵循规律演化的壮丽篇章。 本书将从宇宙学和粒子物理学的视角出发,探讨宇宙最早期阶段的信息编码机制。量子纠缠如何传递信息?暗物质与暗能量在宇宙演化中扮演了怎样的“信息代理人”角色?我们将尝试理解,为何宇宙演化至今,呈现出如此精妙的秩序,而这种秩序,是否本身就包含着某种普适性的信息法则?这不仅仅是对宇宙起源的科学追溯,更是对信息如何从无到有,从微观到宏观,构建起我们所感知的一切的哲学思考。 第二章:生命的涌现——从DNA的序列到物种的演化 当目光从浩瀚星空转向微观世界,我们将在生命形态中发现另一层令人着迷的信息维度。地球上生命的出现,是信息编码与复制的奇迹。DNA,这条双螺旋长链,承载着亿万年的生命蓝图,是构成地球生物多样性的最基本“代码”。从最简单的单细胞生物,到复杂如我们人类的智慧生命,每一个物种的生存、繁衍、演化,都离不开其基因组中海量而精巧的信息表达与传递。 本章将深入探讨生命信息学,但并非局限于基因测序或生物技术。我们将关注基因组的“语言”——核苷酸序列如何编码蛋白质?表观遗传学如何解释后天环境对基因表达的影响,从而传递“非遗传”的信息?自然选择的本质,是否可以理解为对信息适应性最强的基因组合的筛选?我们将追溯从第一个自我复制分子到复杂多细胞生物的演化历程,探究生命体如何通过信息获取、处理与传递,来应对不断变化的环境,实现其生存与繁衍的“目标”。这是一种关于生命如何在信息洪流中“生存”的艺术,一种信息驱动的进化哲学。 第三章:文明的足迹——从文字的诞生到知识的传承 在生命的长河中,人类作为一个拥有高度智慧的物种,更是将信息创造、记录与传播推向了新的高度。文字的诞生,是人类文明的里程碑,它使得知识得以跨越时空,积累并传承。从甲骨文的刻痕,到莎草纸的墨迹,再到如今数字化的信息海洋,人类文明的每一次飞跃,都伴随着信息记录与传播方式的革新。 我们将回溯文明史,审视不同时代的信息载体及其承载的知识。古籍中的智慧,是如何跨越千年而得以流传?艺术、音乐、哲学,这些非具象的信息形式,又如何触动人心,影响社会?本书将探讨知识体系的构建,语言的演化,以及人类集体意识的形成,是否都可以视为一种宏大信息系统的运作?我们将理解,文明的进步,并非仅仅是技术的积累,更是信息处理、组织和共享能力的提升。这是一种关于人类如何通过信息构建自身,塑造社会,并最终创造“意义”的探索。 第四章:感官的映射——世界在我们意识中的构建 我们如何感知世界?我们眼中的色彩,耳中的声音,指尖的触感,味蕾的体验,以及大脑中的思维与情感,这一切的丰富体验,都源自于外界信息通过我们感官系统被捕获、处理并转化为我们内在的“意识图景”。我们所认为的“现实”,在很大程度上,是我们大脑基于感官输入所构建出的一个信息模型。 本章将从神经科学、心理学和认知科学的视角,探讨信息如何在我们的感知与意识之间建立桥梁。神经信号如何编码视觉、听觉、触觉等信息?大脑如何整合来自不同感官的信息,形成统一的知觉?记忆是如何存储和提取信息的?梦境、想象、甚至是幻觉,这些奇特的意识现象,又是否揭示了信息处理的某种“边界”或“漏洞”?我们将尝试理解,我们的意识,本身就是一个极其复杂的信息处理系统,它不断地从外界获取信息,并对其进行加工、解释,最终形成我们独一无二的主观体验。这是一种关于信息如何“内在化”,并塑造我们对世界认知和自我认同的深度剖析。 第五章:信息的新纪元——无处不在的连接与涌现的智慧 进入21世纪,我们正以前所未有的速度,被一个由信息构成的,日益紧密的网络所包裹。互联网、物联网、社交媒体,将分散的世界连接在一起,信息的流动以前所未有的规模和速度进行着。而在这个过程中,新的现象正在涌现:集体智慧、分布式决策、甚至是人工智能的初步显现。 本书的最后一章,将展望信息在未来社会中的潜在影响。我们如何理解网络上的群体行为?“意见领袖”和“信息茧房”的形成机制是什么?人工智能能否真正拥有“智慧”?我们是否正在走向一个由信息驱动的,全新的社会形态?这将是一次关于信息连接的力量、信息网络效应,以及信息未来走向的思考。我们并非要探讨具体的AI技术,而是要理解,当信息以前所未有的方式被连接、被处理、被交互时,所可能涌现出的,超越个体智慧的总和的,令人惊叹的“新生命”。 结语:信息的宇宙,无尽的探索 《探秘宇宙的语言》并非要为任何技术方法论提供操作指南,而是希望开启一扇通往信息本质的窗户。从宇宙的起源到生命的演化,从人类文明的足迹到我们个人的意识体验,再到我们所处的这个信息爆炸的时代,信息无处不在,无时无刻不在驱动着世界的运转,塑造着我们的存在。 这本书将引导你,以一种全新的视角去审视你周围的一切。你会发现,那些看似杂乱无章的现象,都可能隐藏着深层的信息逻辑;那些抽象的概念,都可能有着直观的信息映射。这是一场关于“万物皆信息”的宏大探索,一次对构成现实最深层密码的追寻。让我们一同,在这信息的宇宙中,展开一场无尽的、充满惊喜的探索之旅。

用户评价

评分

这本书给我最深刻的印象,是它对大数据技术生态的梳理,简直是条理清晰,面面俱到。我之前零散地听过Hadoop、Spark这些名字,但从来没有把它们串联起来。《大数据导论》就像一位经验丰富的向导,带领我一步步走进了这个庞大而复杂的生态系统。它不仅仅是简单地介绍某个工具,而是会解释这些工具在整个大数据处理流程中扮演的角色,以及它们之间是如何协同工作的。例如,对于数据存储,它会介绍HDFS的原理,对于数据处理,则会详细讲解MapReduce和Spark的迭代式处理模式,并且还会提到数据仓库、数据湖的概念。最让我惊喜的是,书中还涉及了数据清洗、数据转换、数据可视化等数据生命周期的各个环节,并且给出了相应的一些常见技术和方法。虽然书中没有深入到每一个技术的代码实现层面,但它提供的这种“全景图”式的介绍,让我对大数据技术栈有了非常清晰的认识,也为我后续深入学习特定技术打下了坚实的基础。这本书的结构设计非常合理,每个部分都承前启后,让我能够建立起一个完整的知识体系。

评分

这本书简直是给我打开了一个全新的世界!作为一名对数据科学领域充满好奇但又有些茫然的新手,我一直想找一本既能系统介绍“大数据”这个概念,又能让我理解它到底意味着什么的书。《大数据导论》这本书,真的就像书名所说,给我提供了一个非常扎实的入门。作者并没有上来就讲一堆晦涩的技术术语,而是从最基础的定义入手,循序渐进地解释了大数据为何重要,它与传统数据的区别在哪里。我特别喜欢它对于大数据“5V”特性的阐述,比如“体量巨大”、“多样性”、“高速生成”等等,这些概念被解释得非常生动形象,甚至用了不少生活中的例子来辅助理解,让我一下子就抓住了核心。而且,它还涉及了大数据产生的背景,例如物联网、社交媒体的兴起,这些都帮助我构建了一个更宏观的认知框架。读完前面几章,我感觉自己不再是那个对大数据一知半解的旁观者,而是能初步理解它在现代社会扮演的角色,甚至能开始思考它可能带来的机遇和挑战了。这本书的语言风格也很友好,不会让人产生畏难情绪,很适合初学者。

评分

这本书在探讨大数据带来的挑战与伦理方面,展现出了非常深刻的思考。在我看来,很多技术类的书籍往往会聚焦于“如何做”,而忽略了“是否应该做”以及“做了之后会发生什么”的问题。《大数据导论》在这方面做出了很好的补充。它不仅仅是罗列了数据安全、隐私保护、算法偏见等问题,而是深入分析了这些问题产生的原因,以及它们可能带来的负面影响。例如,关于数据隐私,书中讨论了匿名化和差分隐私等技术,同时也强调了合规性和道德责任的重要性。对于算法偏见,它提出了数据采集偏差、模型设计缺陷等多种可能来源,并呼吁在整个数据处理链条中保持警惕。这种辩证的视角,让我意识到大数据是一把双刃剑,在享受其便利的同时,也必须审慎地应对其带来的潜在风险。这本书的出现,让我对大数据有了更全面的认识,不再仅仅关注技术本身,而是开始思考它与社会、伦理的复杂关系,这对我来说是非常重要的一课。

评分

这本书的语言风格和组织结构,可以说是我读过的技术类书籍中相当出色的。作者的叙述方式非常流畅自然,没有那种生硬的教科书式的感觉。即使在讲解一些相对复杂的概念时,也能做到通俗易懂,善于运用类比和图示来辅助说明,大大降低了理解的门槛。我尤其欣赏它在结构设计上的匠心独运,每一章的内容都是经过精心安排的,循序渐进,层层递进。开篇点题,奠定基础;中间展开,深入剖析;结尾升华,展望未来。这种结构让我能够很轻松地跟随作者的思路,一步步构建起对大数据的理解。而且,书中并没有过多的冗余信息,每一部分都言之有物,紧扣主题。尽管我目前还只是一个初学者,但能够感受到这本书在知识体系的构建上所付出的努力。它不仅教会了我“是什么”,更重要的是,它让我明白了“为什么”以及“如何进一步”。这种扎实的讲解方式,对于任何想要系统学习大数据知识的读者来说,都将是一个非常好的起点。

评分

老实说,这本书在讲到大数据分析和应用的章节时,真的让我眼前一亮,它不再是空洞的理论,而是充满了鲜活的案例。我之前总是觉得大数据离我很遥远,似乎是那些大公司才玩得起的东西,但《大数据导论》用了很多贴近实际的例子,比如电商平台的个性化推荐、金融行业的风险控制、医疗领域的疾病预测等等,让我切实感受到了大数据在各个领域的强大力量。它不仅描述了这些应用场景,还稍微触及了一些实现这些应用的思路和方法,比如如何利用用户行为数据进行精准营销,如何通过分析交易记录来识别欺诈行为。虽然我对其中的算法细节还不是很了解,但它提供了一个非常好的“是什么”和“为什么”的解答。读完这些章节,我开始重新审视身边的很多事物,发现原来它们都离不开大数据的支撑。这种对现实世界的洞察力,是这本书带给我的一个非常宝贵的收获。它让我看到了大数据背后巨大的商业价值和社会意义,激发了我更深入探索的兴趣。

评分

对于大数据的一些叙述还是很详细很全面的

评分

好好阅读好好阅读好好阅读好好阅读好好阅读

评分

图书商品不提供货物清单,报销很不方便

评分

图书商品不提供货物清单,报销很不方便

评分

评分

商品很好啊,我很喜欢,物美价廉

评分

满减的时候就买一点书先的时候看一看

评分

写得浅显易懂,适合初学者,老油条不宜

评分

不错不错不错不错不错

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有