内容简介
本书详细介绍了大数据分析,尤其是数据分类相关算法的原理及实现细节,并给出了每个算法的编程实例。全书共计21章,内容包括十大数据分类算法、十大从二元分类到多类分类的算法、九大属性选择算法、五大数据选择算法,若干集成学习方法和不均衡数据分类算法,以及大数据分析的平台与技术。
本书可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、软件工程、地理信息系统等专业的研究生和高年级本科生的教材,也可作为科研人员、工程师和大数据爱好者的参考书。
作者简介
张重生,男,博士,教授,硕士生导师,河南大学大数据团队带头人。研究领域为大数据分析、深度学习、数据挖掘、数据库、实时数据分析。博士毕业于 INRIA,France(法国国家信息与自动化研究所)。2010年08月至2011年3月,在美国加州大学洛杉矶分校(UCLA)计算机系,师从Carlo Zaniolo教授进行流数据挖掘方面的研究。 十多年来,一直从事数据库、数据挖掘、大数据分析相关的研究,发表SCI/EI论文20篇,含Information Sciences、Neurocomputing、IEEE ICDM、PAKDD、SSDBM等国际期刊和会议论文。作为项目负责人主持 4项科研项目,出版学术专著3部,获得3项国家发明专利,指导硕士研究生12名。
目录
第1章数据分析绪论
1.1理解数据中字段的类型是数据分析的重要前提
1.2进行数据分析时数据的表示形式
1.3数据分类——数据类别的自动识别
1.4数据分类问题与回归问题的区别与联系
1.5数据分析算法简介
1.6交叉验证
1.7一个最简单的分类器-K近邻分类器
1.8后续章节组织
第2章SVM算法
2.1算法原理
2.2工具包简介
2.3实例详解
第3章决策树算法
3.1信息熵值
3.2决策树的构建目标
3.3 ID3决策树算法
3.4 C4��5决策树算法
3.5 CART决策树算法
3.6 ID3、C4��5、CART算法的终止条件
3.7C4��5算法的参数介绍
3.8实例详解
第4章随机森林算法
4.1算法原理
4.2工具包介绍
4.3实例详解
第5章梯度提升决策树算法
5.1算法原理
5.2工具包介绍
5.3实例详解
第6章AdaBoost算法
6.1算法原理
6.2工具包介绍
6.3实例详解
第7章朴素贝叶斯分类器
7.1朴素贝叶斯分类的问题定义
7.2朴素贝叶斯算法原理
7.3一种常见的朴素贝叶斯模型的错误计算方法
7.4朴素贝叶斯算法对连续型属性的处理
第8章极限学习机器算法
8.1算法原理
8.2算法参数介绍
8.3实例详解
第9章逻辑回归算法
9.1 Logistic Regression算法流程
9.2 Logistic Regression算法原理推导
第10章稀疏表示分类算法
10.1算法原理
10.2 SRC工具包及算法参数介绍
10.3 SRC算法实例详解
第11章不同数据分类算法性能的大规模实验对比分析
11.1为什么要比较不同数据分类算法的性能?
11.2不同数据分类算法性能比较的相关工作
11.3最新数据分类算法性能的大规模实验对比分析结果
11.4结论
第12章从二分类到多分类——OVA
12.1 OVA 聚合规则的核心思想
12.2 MAX聚合规则
12.3 DOO聚合规则
12.4调用示例
第13章从二分类到多分类——OVO
13.1 OVO 聚合规则的核心思想
13.2 WV聚合规则
13.3 VOTE聚合规则
13.4 PC聚合规则
13.5 PE聚合规则
13.6 LVPC聚合规则
13.7调用示例
第14章从二分类到多分类——ECOC
14.1 ECOC的核心思想
14.2 ECOC 编码
14.3 ECOC 译码
14.4 ECOC多类分类调用示例
第15章三种从二分类到多分类聚合策略的实验对比分析
15.1 OVA策略的实验结果
15.2 OVO策略的实验结果
15.3 ECOC策略的实验结果
第16章多个分类算法的集成方法研究
16.1差异性(Diversity)的原理与技术
16.2集成学习方法
16.3本章小结
第17章属性选择算法
17.1 fspackage和LibSVM的使用
17.2信息增益算法
17.3卡方分布算法
17.4基于Fisher Score的属性选择算法
17.5基于基厄系数的属性选择算法
17.6基于T检验的属性选择算法
第18章高级属性选择算法
18.1线性前向选择算法
18.2顺序前向选择算法
18.3基于稀疏多项式逻辑回归的属性选择算法
18.4 Our——多个属性选择算法的集成策略
18.5属性选择算法的大规模实验对比分析
第19章数据选择算法
19.1衡量不均衡数据分类质量的常用方法
19.2 RUS算法
19.3 CNN算法
19.4 SMOTE算法
19.5 ADASYN算法
19.6 OSS算法
19.7本章小结
第20章不均衡数据分类算法及大规模实验分析
20.1 C4.5 CS算法
20.2使用Random Forests和GBDT进行不均衡数据分类
20.3BalanceCascade不均衡数据分类算法
20.4其他不均衡数据分类算法及不均衡分类器的集成算法
20.5结合属性选择和数据选择的不均衡数据分类实验
第21章大数据分析
21.1 Spark平台简介
21.2基于Ambari的Spark及Spark集群的安装与配置
21.3 Ambari集群扩展
21.4基于Spark平台的分布式编程示例
21.5 MLlib——Spark平台上的机器学习库
前言/序言
大数据分析,尤其是数据分类与预测是数据挖掘中最重要的分支领域,也是企业需要最多且应用最广泛的技术。本书专注于大数据分析和数据分类技术。本书的目标有三:
一是成为我国“最接地气的”、最实用的、最完整、最专业的数据分析专著,成为数据挖掘爱好者、研究生、科研人员、工程师在解决数据分类和大数据分析相关问题时的首选之作。
二是成为理论与实践并重的专业书籍。本书的特点是采用示例驱动的方式讲解原理和相关实验。在讲解算法原理时,本书通过举例子的方式,详解算法的每个步骤及对应示例的结果,使得一些晦涩的公式和原理变得直接、具体、易理解。笔者翻阅了很多数据挖掘和机器学习专著,鲜有书籍能做到在原理部分示例驱动。而且,本书十分注重对于算法的应用的实战能力的培养,在讲解算法原理之后,给出具体例子,引导读者进行相关的实验,获得实践能力、解决实际问题的能力。
三是成为传播大数据分析和数据分类技术的重要媒介、培养大数据人才的首选教材。最近几年,国内外的大数据人才供不应求,其薪资通常是普通IT从业人员的两倍以上。而绝大多数国内高校在培养大数据人才时,都遇到了各种瓶颈和问题。究其原因,合适中文教材的匮乏是极为重要的一个原因。因为,大数据人才不能只是泛泛地了解数据挖掘的相关原理介绍,他们更应该深入理解算法的原理且掌握解决实际数据挖掘问题的动手能力和实战经验。而现有的教材大多是泛泛教授数据挖掘相关原理的书籍。
本书采用平民化、“接地气”的原理讲解方式,及原理与应用实践并重的思路。普通读者(本科及以上学历的读者,甚至是大三以上的学生)很容易理解、掌握本书介绍的相关算法的原理,并切实掌握相关的应用开发技能和解决实际问题的能力。这对于大数据分析、数据分类技术在我国的广泛传播,对于大数据分析人才的大规模培养,具有重要意义。
全书共21章,可以分为六个部分:第一部分包括第1~11章,此部分将讲述12个主流的数据分类算法;第二部分包括12~15章,此部分讲述从二分类(只能对两类数据进行分类)到多分类的三种主流技术及其实验对比分析;第三部分包括第16章,主要讲述若干集成学习相关的算法;第四部分包括第17~18章,主要讲述属性选择相关的原理和算法;第五部分包括第19~20章,主要讲述数据选择和不均衡数据分类相关的原理和技术;第六部分包括第21章,主要讲述大数据分析相关的平台与开发技术。
研究生毕璟君、刘畅畅、张愿承担了本书相关实验部分的程序实现与撰写的工作。
针对数据挖掘领域的初学者,建议选择第1~7章、第12章、第16~17章、第19章、第21章作为主要学习内容。如果读者是数据挖掘方向的专家、工程师、研究生、科研人员,则建议通读全书。在遇到具体问题时,请仔细阅读、理解相关章节,必要时,可以去查阅参考文献中列出的原始英文论文,进行深入的推敲和探究。
由于笔者水平有限,书中错谬之处在所难免,如蒙读者赐教,本人将感激之至。
张重生2016年10月于河南大学
大数据分析:数据挖掘必备算法示例详解 epub pdf mobi txt 电子书 下载 2024
大数据分析:数据挖掘必备算法示例详解 下载 epub mobi pdf txt 电子书 2024
评分
☆☆☆☆☆
一本介绍Spark技术的好书,买来学习学习。
评分
☆☆☆☆☆
之所以喜欢这本书,不仅仅感动于作者的匠心精神,更为重要的是如同拥有了一把登堂入室的钥匙,为我们打开一扇门,沉醉不知,乐在其中!我喜欢!
评分
☆☆☆☆☆
本书深入浅出地介绍了大数据分析相关的算法和示例,实可谓震聋发聩,醍醐灌顶。适合大数据的初学者作为教材。
评分
☆☆☆☆☆
这本书非常不错~对于大数据学习很有帮助,内容丰富详细……正版噢,质量很不错!
评分
☆☆☆☆☆
于是,翻到前言,想认识下作者,却很少有作者的工作介绍。网上搜索之,结果很惊讶。
评分
☆☆☆☆☆
对像我这样的新手的一点学习建议:Spark的基础概念可以结合程序运行时产生的web UI去理解,这样更直观。
评分
☆☆☆☆☆
非常好,正版正品。推荐购买!
评分
☆☆☆☆☆
很好很强大,支持正版书籍
评分
☆☆☆☆☆
这本书很不错,让我感觉到学习时很有帮助,书中的内容很详细,对新手来说很容易上手。