内容简介
本书是数据挖掘和机器学习领域的经典畅销教材,被国内外众多名校选用。第4版新增了关于深度学习和概率方法的重要章节,同时,备受欢迎的机器学习软件Weka也再度升级。书中全面覆盖了该领域的实用技术,致力于帮助读者理解不同技术的工作方式和应用方式,从而学会在工程实践和商业项目中解决真实问题。本书适合作为高等院校相关课程的教材,同时也适合业内技术人员阅读参考。
目录
目 录
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
译者序
前言
致谢
第一部分 数据挖掘基础
第1章 绪论 2
1.1 数据挖掘和机器学习 2
1.1.1 描述结构模式 3
1.1.2 机器学习 5
1.1.3 数据挖掘 6
1.2 简单的例子:天气问题和其他问题 6
1.2.1 天气问题 6
1.2.2 隐形眼镜:一个理想化的问题 8
1.2.3 鸢尾花:一个经典的数值型数据集 9
1.2.4 CPU性能:引入数值预测 10
1.2.5 劳资协商:一个更真实的例子 11
1.2.6 大豆分类:一个经典的机器学习的成功例子 12
1.3 应用领域 14
1.3.1 Web挖掘 14
1.3.2 包含判断的决策 15
1.3.3 图像筛选 15
1.3.4 负载预测 16
1.3.5 诊断 17
1.3.6 市场和销售 17
1.3.7 其他应用 18
1.4 数据挖掘过程 19
1.5 机器学习和统计学 20
1.6 将泛化看作搜索 21
1.6.1 枚举概念空间 22
1.6.2 偏差 22
1.7 数据挖掘和道德问题 24
1.7.1 再识别 24
1.7.2 使用个人信息 25
1.7.3 其他问题 26
1.8 拓展阅读及参考文献 26
第2章 输入:概念、实例和属性 29
2.1 概念 29
2.2 实例 31
2.2.1 关系 31
2.2.2 其他实例类型 34
2.3 属性 35
2.4 输入准备 36
2.4.1 数据收集 37
2.4.2 ARFF格式 37
2.4.3 稀疏数据 39
2.4.4 属性类型 40
2.4.5 缺失值 41
2.4.6 不正确的值 42
2.4.7 非均衡数据 42
2.4.8 了解数据 43
2.5 拓展阅读及参考文献 43
第3章 输出:知识表达 44
3.1 表 44
3.2 线性模型 44
3.3 树 46
3.4 规则 49
3.4.1 分类规则 49
3.4.2 关联规则 52
3.4.3 包含例外的规则 53
3.4.4 表达能力更强的规则 54
3.5 基于实例的表达 56
3.6 聚类 58
3.7 拓展阅读及参考文献 59
第4章 算法:基本方法 60
4.1 推断基本规则 60
4.2 简单概率模型 63
4.2.1 缺失值和数值属性 65
4.2.2 用于文档分类的朴素贝叶斯 67
4.2.3 讨论 68
4.3 分治法:创建决策树 69
4.3.1 计算信息量 71
4.3.2 高度分支属性 73
4.4 覆盖算法:建立规则 74
4.4.1 规则与树 75
4.4.2 一个简单的覆盖算法 76
4.4.3 规则与决策列表 79
4.5 关联规则挖掘 79
4.5.1 项集 80
4.5.2 关联规则 81
4.5.3 高效地生成规则 84
4.6 线性模型 86
4.6.1 数值预测:线性回归 86
4.6.2 线性分类:logistic回归 87
4.6.3 使用感知机的线性分类 89
4.6.4 使用Winnow的线性分类 90
4.7 基于实例的学习 91
4.7.1 距离函数 92
4.7.2 高效寻找最近邻 92
4.7.3 讨论 96
4.8 聚类 96
4.8.1 基于距离的迭代聚类 97
4.8.2 更快的距离计算 98
4.8.3 选择簇的个数 99
4.8.4 层次聚类 100
4.8.5 层次聚类示例 101
4.8.6 增量聚类 102
4.8.7 分类效用 104
4.8.8 讨论 106
4.9 多实例学习 107
4.9.1 聚集输入 107
4.9.2 聚集输出 107
4.10 拓展阅读及参考文献 108
4.11 Weka实现 109
第5章 可信度:评估学习结果 111
5.1 训练和测试 111
5.2 预测性能 113
5.3 交叉验证 115
5.4 其他评估方法 116
5.4.1 留一交叉验证法 116
5.4.2 自助法 116
5.5 超参数选择 117
5.6 数据挖掘方法比较 118
5.7 预测概率 121
5.7.1 二次损失函数 121
5.7.2 信息损失函数 122
5.7.3 讨论 123
5.8 计算成本 123
5.8.1 成本敏感分类 125
5.8.2 成本敏感学习 126
5.8.3 提升图 126
5.8.4 ROC曲线 129
5.8.5 召回率–精确率曲线 130
5.8.6 讨论 131
5.8.7 成本曲线 132
5.9 评估数值预测 134
5.10 最小描述长度原理 136
5.11 将MDL原理应用于聚类 138
5.12 使用验证集进行模型选择 138
5.13 拓展阅读及参考文献 139
第二部分 高级机器学习方案
第6章 树和规则 144
6.1 决策树 144
6.1.1 数值属性 144
6.1.2 缺失值 145
6.1.3 剪枝 146
6.1.4 估计误差率 147
6.1.5 决策树归纳法的复杂度 149
6.1.6 从决策树到规则 150
6.1.7 C4.5:选择和选项 150
6.1.8 成本–复杂度剪枝 151
6.1.9 讨论 151
6.2 分类规则 152
6.2.1 选择测试的标准 152
6.2.2 缺失值和数值属性 153
6.2.3 生成好的规则 153
6.2.4 使用全局优化 155
6.2.5 从局部决策树中获得规则 157
6.2.6 包含例外的规则 158
6.2.7 讨论 160
6.3 关联规则 161
6.3.1 建立频繁模式树 161
6.3.2 寻找大项集 163
6.3.3 讨论 166
6.4 Weka 实现 167
第7章 基于实例的学习和线性模型的扩展 168
7.1 基于实例的学习 168
7.1.1 减少样本集的数量 168
7.1.2 对噪声样本集剪枝 169
7.1.3 属性加权 170
7.1.4 泛化样本集 170
7.1.5 用于泛化样本集的距离函数 171
7.1.6 泛化的距离函数 172
7.1.7 讨论 172
7.2 扩展线性模型 173
7.2.1 最大间隔超平面 173
7.2.2 非线性类边界
前言/序言
前 言
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
计算和通信的结合建立了一个以信息为基础的新领域。但绝大多数信息尚处于原始状态,即以数据形式存在的状态。假如我们将数据定义为被记录下来的事实,那么“信息”就是隐藏于这些记录事实的数据中的一系列模式或预期。在数据库中蕴藏了大量具有潜在重要性的信息,这些信息尚未被发现和利用,我们的任务就是将这些信息释放出来。
数据挖掘是将隐含的、尚不为人知的同时又是潜在有用的信息从数据中提取出来。为此我们编写计算机程序,自动在数据库中筛选有用的规律或模式。如果能发现一些明显的模式,则可以将其归纳出来,以对未来的数据进行准确预测。当然,数据挖掘结果中肯定会出现一些问题,比如许多模式可能是价值不大的或者没有实际意义的,还有一些可能是虚假的,或者是由于某些具体数据集的巧合而产生的。在现实世界中,数据是不完美的:有些被人为篡改,有些会丢失。我们观察到的所有东西都不是完全精确的:任何规律都有例外,并且总会出现不符合任何一个规律的实例。算法必须具有足够的健壮性以应付不完美的数据,并能提取出不精确但有用的规律。
机器学习为数据挖掘提供了技术基础,能够将信息从数据库的原始数据中提取出来,以可以理解的形式表达,并可用于多种用途。这是一种抽象化过程:如实地全盘接收现有数据,然后在此基础上推导出所有隐藏在这些数据中的结构。本书将介绍在数据挖掘实践中为了发现和描述数据中的结构模式而采用的机器学习工具与技术。
就像所有新兴技术都会受到商界的强烈关注一样,关于数据挖掘应用的报道可谓是铺天盖地。夸张的报道宣称通过设立学习算法就能从浩瀚的数据汪洋中发现那些神秘的规律,其实机器学习绝没有什么魔法,也没有什么隐藏的力量,更没有什么巫术,有的只是一些能将有用信息从原始数据中提取出来的简单和实用的技术。本书将介绍这些技术,并展示它们是如何工作的。
在许多应用中,机器学习使得从数据样本中获取结构描述成为可能。这种结构描述可用于预测、解释和理解。有些数据挖掘应用侧重于预测,即从数据所描述的过去预测将来在新情况下会发生什么,通常是预测新的样本分类。但也许人们更感兴趣的是,“学习”的结果是一个可以用来对样本进行分类的真实结构描述。这种结构描述不仅支持预测,也支持解释和理解。根据经验,在绝大多数数据挖掘实践应用中,用户感兴趣的莫过于掌握样本的本质。事实上,这是机器学习优于传统统计模型的一个主要优点。
本书诠释了多种多样的机器学习方法。其中部分出于方便教学的目的而仅仅罗列了一些简单方案,以清楚解释基本思想如何实现。其他则更多考虑到具体实现而列举了很多应用于实际工作中的真实系统。在这些方法中,有很多都是近几年发展起来的。
我们创建了一套综合软件以说明书中的思想。软件名称是怀卡托智能分析环境(Waikato
Environment for Knowledge Analysis),简称Weka,它的Java源代码参见www.cs.waikato.ac.nz/ml/weka。Weka几乎可以完整地、产业化地实现本书中所包含的所有技术。它包括了机器学习方法的说明性代码以及具体实现。针对一些简单技术,它提供了清楚而简洁的实例,以帮助理解机器学习中的相关机理。Weka还提供了一个工作平台,完整、实用、高水准地实现了很多流行的学习方案,这些方案能够运用于实际的数据挖掘项目或学术研究。最后,它还包括了一个形如Java类库的框架,这个框架支持嵌入式机器学习的应用乃至新学习方案的实现。
本书旨在介绍用于数据挖掘领域的机器学习工具和技术。读完本书后,你将对这些技术有所了解,并能体会到它们的功效和实用价值。如果你希望用自己的数据进行实验,用Weka就能轻松做到。但Weka绝不是唯一的选择,例如,免费统计计算环境R就包含许多机器学习算法。Python编程语言的爱好者可能更喜欢流行的scikit-learn库。用于分布式计算的现代“大数据”框架也支持机器学习,如Apache Spark。在实际应用中,部署机器学习的选择有很多。本书仅讨论基本的学习算法,没有深入研究特定软件的实现细节,但会在恰当的位置指出所讨论的算法可以在Weka软件的什么位置找到。本书还简要介绍了其他机器学习软件,如用于高维数据的“深度学习”。不过,大多数具体软件的信息被归纳到了附录中。
提供数据挖掘案例研究的商业书籍中往往涉及一些非常实用的方法,这些方法与当前机器学习教材中出现的更理论化、更原则化的方法之间存在鸿沟,本书跨越了这个鸿沟。这个鸿沟相当大,为了让机器学习技术应用得到成果,需要理解它们是如何工作的。这不是一种可以盲目应用而后便期待好结果出现的技术。不同的问题需要用不同的技术解决,但是根据实际问题来选择合适的技术并非易事,你需要知道到底有多少种可能的解决方案。本书所论及的技术范围相当广泛,并不囿于某种特定的商业软件或方案。书中给出了大量实例,但是展示实例所采用的数据集却小得足以让你搞清楚实例的整个过程。真实的数据集太大,不能做到这一点(而且真实数据集的获取常受限于商业机密)。本书所选择的
数据挖掘:实用机器学习工具与技术(原书第4版) epub pdf mobi txt 电子书 下载 2025
数据挖掘:实用机器学习工具与技术(原书第4版) 下载 epub mobi pdf txt 电子书 2025