本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章ZUI后均附有参考书目和习题。
本书适合高等院校相关专业的学生和教师阅读,也适合从事数据挖掘相关工作的人员学习参考。
Mohammed J. Zaki
伦斯勒理工学院计算机科学系教授,ACM杰出科学家,IEEE会士,目前致力于研究新数据挖掘技术。曾获得谷歌教职研究奖等诸多奖项。
Wagner Meira Jr.
巴西米纳斯联邦大学计算机科学系教授,数据库专家。
第1章 数据挖掘与分析 1
1.1 数据矩阵 1
1.2 属性 2
1.3 数据的几何和代数描述 3
1.3.1 距离和角度 5
1.3.2 均值与总方差 8
1.3.3 正交投影 9
1.3.4 线性无关与维数 10
1.4 数据:概率观点 12
1.4.1 二元随机变量 17
1.4.2 多元随机变量 20
1.4.3 随机抽样和统计量 21
1.5 数据挖掘 22
1.5.1 探索性数据分析 23
1.5.2 频繁模式挖掘 24
1.5.3 聚类 24
1.5.4 分类 25
1.6 补充阅读 26
1.7 习题 26
DIYI部分 数据分析基础
第2章 数值属性 28
2.1 一元变量分析 28
2.1.1 数据居中度度量 29
2.1.2 数据离散度度量 32
2.2 二元变量分析 35
2.2.1 位置和离散度的度量 36
2.2.2 相关性度量 37
2.3 多元变量分析 40
2.4 数据规范化 44
2.5 正态分布 46
2.5.1 一元正态分布 46
2.5.2 多元正态分布 47
2.6 补充阅读 50
2.7 习题 51
第3章 类别型属性 53
3.1 一元分析 53
3.1.1 伯努利变量(Bernoulli variable) 53
3.1.2 多元伯努利变量 55
3.2 二元分析 61
3.3 多元分析 69
3.4 距离和角度 74
3.5 离散化 75
3.6 补充阅读 77
3.7 习题 78
第4章 图数据 79
4.1 图的概念 79
4.2 拓扑属性 83
4.3 中心度分析 86
4.3.1 基本中心度 86
4.3.2 Web中心度 88
4.4 图的模型 96
4.4.1 Erd?s-Rényi随机图模型 98
4.4.2 Watts-Strogatz小世界图模型 101
4.4.3 Barabási-Albert无标度模型 104
4.5 补充阅读 111
4.6 习题 112
第5章 核方法 114
5.1 核矩阵 117
5.1.1 再生核映射 118
5.1.2 Mercer核映射 120
5.2 向量核 122
5.3 特征空间中的基本核操作 126
5.4 复杂对象的核 132
5.4.1 字符串的谱核 132
5.4.2 图节点的扩散核 133
5.5 补充阅读 137
5.6 习题 137
第6章 高维数据 139
6.1 高维对象 139
6.2 高维体积 141
6.3 超立方体的内接超球面 143
6.4 薄超球面壳的体积 144
6.5 超空间的对角线 145
6.6 多元正态的密度 146
6.7 附录:球面体积的推导 149
6.8 补充阅读 153
6.9 习题 153
第7章 降维 156
7.1 背景知识 156
7.2 主成分分析 160
7.2.1 ZUI优线近似 160
7.2.2 ZUI优二维近似 163
7.2.3 ZUI优r维近似 167
7.2.4 主成分分析的几何意义 170
7.3 核主成分分析 172
7.4 奇异值分解 178
7.4.1 奇异值分解的几何意义 179
7.4.2 奇异值分解和主成分分析之间的联系 180
7.5 补充阅读 182
7.6 习题 182
第二部分 频繁模式挖掘
第8章 项集挖掘 186
8.1 频繁项集和关联规则 186
8.2 频繁项集挖掘算法 189
8.2.1 逐层的方法:Apriori算法 191
8.2.2 事务标识符集的交集方法:Eclat算法 193
8.2.3 频繁模式树方法:FPGrowth算法 197
8.3 生成关联规则 201
8.4 补充阅读 203
8.5 习题 203
第9章 项集概述 208
9.1 ZUI大频繁项集和闭频繁项集 208
9.2 挖掘ZUI大频繁项集:GenMax算法 211
9.3 挖掘闭频繁项集:Charm算法 213
9.4 非可导项集 215
9.5 补充阅读 220
9.6 习题 221
第10章 序列挖掘 223
10.1 频繁序列 223
10.2 挖掘频繁序列 224
10.2.1 逐层挖掘:GSP 225
10.2.2 垂直序列挖掘:Spade 226
10.2.3 基于投影的序列挖掘:PrefixSpan 228
10.3 基于后缀树的子串挖掘 230
10.3.1 后缀树 230
10.3.2 Ukkonen线性时间算法 233
10.4 补充阅读 238
10.5 习题 239
第11章 图模式挖掘 242
11.1 同形和支撑 242
11.2 候选生成 245
11.3 gSpan算法 249
11.3.1 扩展和支撑计算 250
11.3.2 quanwei性测试 255
11.4 补充阅读 256
11.5 习题 257
第12章 模式与规则评估 260
12.1 规则和模式评估的度量 260
12.1.1 规则评估度量 260
12.1.2 模式评估度量 268
12.1.3 比较多条规则和模式 270
12.2 显著性检验和置信区间 273
12.2.1 产生式规则的费希尔精确检验 273
12.2.2 显著性的置换检验 277
12.2.3 置信区间内的自助抽样 282
12.3 补充阅读 284
12.4 习题 285
第三部分 聚类
第13章 基于代表的聚类 288
13.1 K-means 算法 288
13.2 核K-means 292
13.3 期望ZUI大聚类 295
13.3.1 一维中的EM 297
13.3.2 d维中的EM 300
13.3.3 极大似然估计 305
13.3.4 EM方法 309
13.4 补充阅读 311
13.5 习题 312
第14章 层次式聚类 315
14.1 预备知识 315
14.2 聚合型层次式聚类 317
14.2.1 簇间距离 317
14.2.2 更新距离矩阵 321
14.2.3 计算复杂度 322
14.3 补充阅读 322
14.4 习题 323
第15章 基于密度的聚类 325
15.1 DBSCAN 算法 325
15.2 核密度估计 328
15.2.1 一元密度估计 328
15.2.2 多元密度估计 331
15.2.3 ZUI近邻密度估计 333
15.3 基于密度的聚类:DENCLUE 333
15.4 补充阅读 338
15.5 习题 339
第16章 谱聚类和图聚类 341
16.1 图和矩阵 341
16.2 基于图的割的聚类 347
16.2.1 聚类目标函数:比例割与归—割 349
16.2.2 谱聚类算法 351
16.2.3 ZUI大化目标:平均割与模块度 354
16.3 马尔可夫聚类 360
16.4 补充阅读 366
16.5 习题 367
第17章 聚类的验证 368
17.1 外部验证度量 368
17.1.1 基于匹配的度量 369
17.1.2 基于熵的度量 372
17.1.3 成对度量 375
17.1.4 关联度量 378
17.2 内部度量 381
17.3 相对度量 388
17.3.1 分簇稳定性 394
17.3.2 聚类趋向性 396
17.4 补充阅读 400
17.5 习题 401
第四部分 分类
第18章 基于概率的分类 404
18.1 贝叶斯分类器 404
18.1.1 估计先验概率 404
18.1.2 估计似然 405
18.2 朴素贝叶斯分类器 409
18.3 KZUI近邻分类器 412
18.4 补充阅读 414
18.5 习题 415
第19章 决策树分类器 416
19.1 决策树 417
19.2 决策树算法 419
19.2.1 分割点评估度量 420
19.2.2 评估分割点 422
19.3 补充阅读 429
19.4 习题 429
第20章 线性判别分析 431
20.1 ZUI优线性判别 431
20.2 核判别分析 437
20.3 补充阅读 443
20.4 习题 443
第21章 支持向量机 445
21.1 支持向量和间隔 445
21.2 SVM:线性可分的情况 450
21.3 软间隔SVM:线性不可分的情况 454
21.3.1 铰链误损 455
21.3.2 二次误损 458
21.4 核SVM:非线性情况 459
21.5 SVM训练算法 462
21.5.1 对偶解法:随机梯度上升 463
21.5.2 原始问题解:牛顿优化 467
21.6 补充阅读 473
21.7 习题 473
第22章 分类的评估 475
22.1 分类性能度量 475
22.1.1 基于列联表的度量 476
22.1.2 二值分类:正类和负类 479
22.1.3 ROC分析 482
22.2 分类器评估 487
22.2.1 K折交叉验证 487
22.2.2 自助抽样 488
22.2.3 置信区间 489
22.2.4 分类器比较:配对t检验 493
22.3 偏置-方差分解 495
22.4 补充阅读 503
22.5 习题 504
这本书的阅读体验,老实说,并不像我期待的那样令人兴奋。我本来对数据挖掘中的“算法”部分寄予厚望,希望能够深入理解各种经典算法的原理,例如决策树是如何构建的,支持向量机又是如何工作的。然而,书中对这些算法的讲解,感觉有些过于“轻描淡写”。 很多算法的介绍,仅仅停留在“是什么”的层面,而对于“为什么是这样”、“如何推导出来的”以及“在什么情况下效果最好”等关键问题,并没有给出深入的解答。我希望能看到算法的数学推导过程,哪怕是简化的版本,也能帮助我更好地理解算法的内在逻辑。此外,对于一些常用的机器学习库,例如scikit-learn,书中是否有详细的使用指南和代码示例? 我希望能够跟着书中的内容,动手实践,将理论知识转化为实际技能。我对数据挖掘的理解,还停留在比较初级的阶段,希望能通过这本书,学习到更多关于特征工程、模型评估、模型调优等方面的实用技巧,从而能够独立完成一个完整的数据分析项目。这本书在这些方面的覆盖,让我觉得还有提升的空间。
评分坦白说,我对这本书的“融合”程度有些担忧。它声称融合了机器学习、统计学等知识,但我翻开来看,感觉更像是将各个学科的知识点散落地堆砌在一起,并没有形成一个有机的整体。我期待的是看到这些学科知识如何协同作用,如何互相补充,从而构建出一个更加强大和全面的数据分析框架。例如,机器学习中的模型,其背后的统计学原理是什么?统计学中的方法,如何在机器学习的框架下得到更有效的应用?书中是否有关于模型解释性、可信度评估的讨论,以及如何利用统计学的方法来增强模型的鲁棒性? 我希望这本书能提供一种“融会贯通”的视角,让我理解不同学科之间的内在联系,而不是孤立地学习各个知识点。如果仅仅是将各种算法和概念简单地罗列出来,而没有深入探讨它们之间的联系和相互作用,那么这本书的“融合”就显得名不副实了。我更倾向于看到作者能够带领我,从一个更高的维度去理解数据挖掘与分析的本质,去认识到这些学科是如何共同服务于从数据中提取价值这一最终目标的。
评分翻了几页,这本书似乎并没有我预期的那么“硬核”。我本以为是一本会深入讲解各种复杂模型和数学推导的学术专著,但初步看来,它的风格更偏向于普及和引导。对于我这种数据分析的初学者来说,这或许是个好事,但对于已经有一定基础的人,可能会觉得不够深入。我一直在寻找能够帮助我理解更深层次的统计学原理,例如假设检验的底层逻辑,以及各种回归模型在不同场景下的适用性和局限性。同时,我对于时间序列分析和聚类算法的深入讲解也抱有很大期望,希望能看到更多关于它们在异常检测、用户分群等方面的应用细节。如果书中只是简单地罗列一些算法名称和基本用法,而没有对算法的内在机制、优缺点进行细致的分析,那对我的帮助就会有限。我希望作者能够像一位经验丰富的老兵,带我深入“战场”,讲解那些经过实战检验的“战术”和“技巧”,而不是只在“战术手册”上划圈圈。此外,我一直对如何有效地处理和清洗真实世界中的脏数据感到困惑,真实的数据往往充满了缺失值、异常值和不一致,如何在预处理阶段就考虑到这些问题,并采取有效的策略,是提升分析结果质量的关键。我希望书中能在这方面给出更具体、更具指导性的建议,而不仅仅是泛泛而谈。
评分这部作品的叙述方式实在是太过“文艺”了。我找的是一本技术类的书籍,期望能够学习到实实在在的技能,掌握解决问题的工具。然而,我在这本书里看到的更多的是对数据“美学”的探讨,对“数据生命周期”的诗意描绘,以及一些关于“数据伦理”的哲学思考。虽然这些内容本身并没有错,甚至很有启发性,但它们与我想要通过这本书达到的目的——提高我的数据分析能力——似乎有些 Mismatch。我更希望看到的是清晰的图表、严谨的公式、详细的代码示例,以及能够引导我一步步完成数据分析项目的流程。例如,在讲解模型构建的时候,我希望能看到关于模型选择、特征工程、参数调优等一系列操作的详细步骤和考量因素。 关于如何使用Python或者R来实现这些算法,我也期待有更直观、更易于模仿的代码片段。如果书中充斥着大段大段的理论阐述,而缺乏实际可操作的指导,那对我来说,这本书的价值将大打折扣。我希望它能更贴近实际应用,更接地气一些,而不是让我在“概念的海洋”里漂流,却找不到“登陆”的彼岸。
评分刚拿到这本《图灵教育 数据挖掘与分析 概念与算法 融合机器学习 统计学等相关学科知识 涵盖》的书,还没来得及细看,但凭着对图灵教育一贯品质的信任,以及对“数据挖掘与分析”这个主题的浓厚兴趣,我已经对接下来的阅读充满了期待。我本身从事的是市场营销相关工作,日常工作中接触到大量的数据,如何从中提炼有价值的信息,发现潜在的客户群体,优化营销策略,一直是我非常头疼的问题。听闻这本书融合了机器学习和统计学等知识,这正是我急需的。我尤其关注书中关于“概念与算法”的讲解,希望它能将那些看似高深的理论以一种易于理解的方式呈现出来,并且能够提供一些实用的算法,让我可以在实际工作中进行尝试。我期待书中能有案例分析,能够结合实际场景,演示如何应用这些数据挖掘和分析的技术,解决实际问题。例如,对于我们这种需要进行用户画像、精准推荐的行业来说,书中能否提供一些具体的模型和实现思路?此外,我比较担心的是,有些数据挖掘的书籍过于偏重理论,缺乏实践指导,或者算法介绍过于晦涩,难以消化。我希望这本书能在理论深度和实践可操作性之间找到一个很好的平衡点,既能让我了解背后的原理,又能让我真正学会如何去应用。 图灵教育出品,质量应该有保障,我很期待这本书能成为我工作中的得力助手。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有