Python数据挖掘入门与实践

Python数据挖掘入门与实践 pdf epub mobi txt 电子书 下载 2025

[澳] Robert Layton 著,杜春晓 译
图书标签:
  • Python
  • 数据挖掘
  • 机器学习
  • 数据分析
  • 入门
  • 实践
  • 数据科学
  • 算法
  • 可视化
  • 案例
想要找书就要到 静思书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 人民邮电出版社
ISBN:9787115427106
版次:1
商品编码:11982572
包装:平装
丛书名: 图灵程序设计丛书
开本:16开
出版时间:2016-07-01
用纸:胶版纸
页数:236
正文语种:中文

具体描述

产品特色

编辑推荐

  在数据规模急速膨胀的大数据时代,数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。它将赋予你解决实际问题的“超能力”:预测体育赛事结果、投放广告、根据作品的风格解决作者归属问题,等等。
  本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书,读者将迈入数据挖掘的殿堂,透彻理解数据挖掘基础知识,掌握解决数据挖掘实际问题的杰出实践!

内容简介

  本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。
  本书面向愿意学习和尝试数据挖掘的程序员。

作者简介

  Robert Layton,计算机科学博士,网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程,参与过scikit-learn库等很多开源库的开发,曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作,挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。

目录

第1章 开始数据挖掘之旅 1
1.1 数据挖掘简介 1
1.2 使用Python 和IPython Notebook 2
1.2.1 安装Python 2
1.2.2 安装IPython 4
1.2.3 安装scikit-learn 库 5
1.3 亲和性分析示例 5
1.3.1 什么是亲和性分析 5
1.3.2 商品推荐 6
1.3.3 在NumPy 中加载数据集 6
1.3.4 实现简单的排序规则 8
1.3.5 排序找出最佳规则 10
1.4 分类问题的简单示例 12
1.5 什么是分类 12
1.5.1 准备数据集 13
1.5.2 实现OneR 算法 14
1.5.3 测试算法 16
1.6 小结 18
第2章 用scikit-learn 估计器分类 19
2.1 scikit-learn 估计器 19
2.1.1 近邻算法 20
2.1.2 距离度量 20
2.1.3 加载数据集 22
2.1.4 努力实现流程标准化 24
2.1.5 运行算法 24
2.1.6 设置参数 25
2.2 流水线在预处理中的应用 27
2.2.1 预处理示例 28
2.2.2 标准预处理 28
2.2.3 组装起来 29
2.3 流水线 29
2.4 小结 30
第3章 用决策树预测获胜球队 31
3.1 加载数据集 31
3.1.1 采集数据 31
3.1.2 用pandas 加载数据集 32
3.1.3 数据集清洗 33
3.1.4 提取新特征 34
3.2 决策树 35
3.2.1 决策树中的参数 36
3.2.2 使用决策树 37
3.3 NBA 比赛结果预测 37
3.4 随机森林 41
3.4.1 决策树的集成效果如何 42
3.4.2 随机森林算法的参数 42
3.4.3 使用随机森林算法 43
3.4.4 创建新特征 44
3.5 小结 45
第4章 用亲和性分析方法推荐电影 46
4.1 亲和性分析 46
4.1.1 亲和性分析算法 47
4.1.2 选择参数 47
4.2 电影推荐问题 48
4.2.1 获取数据集 48
4.2.2 用pandas 加载数据 49
4.2.3 稀疏数据格式 49
4.3 Apriori 算法的实现 50
4.3.1 Apriori 算法 51
4.3.2 实现 52
4.4 抽取关联规则 54
4.5 小结 60
第5章 用转换器抽取特征 62
5.1 特征抽取 62
5.1.1 在模型中表示事实 62
5.1.2 通用的特征创建模式 64
5.1.3 创建好的特征 66
5.2 特征选择 67
5.3 创建特征 71
5.4 创建自己的转换器 75
5.4.1 转换器API 76
5.4.2 实现细节 76
5.4.3 单元测试 77
5.4.4 组装起来 79
5.5 小结 79
第6章 使用朴素贝叶斯进行社会
媒体挖掘 80
6.1 消歧 80
6.1.1 从社交网站下载数据 81
6.1.2 加载数据集并对其分类 83
6.1.3 Twitter 数据集重建 87
6.2 文本转换器 90
6.2.1 词袋 . 91
6.2.2 N 元语法 92
6.2.3 其他特征 93
6.3 朴素贝叶斯 93
6.3.1 贝叶斯定理 93
6.3.2 朴素贝叶斯算法 94
6.3.3 算法应用示例 95
6.4 应用 96
6.4.1 抽取特征 97
6.4.2 将字典转换为矩阵 98
6.4.3 训练朴素贝叶斯分类器 98
6.4.4 组装起来 98
6.4.5 用F1 值评估 99
6.4.6 从模型中获取更多有用的
特征 100
6.5 小结 102
第7章 用图挖掘找到感兴趣的人 104
7.1 加载数据集 104
7.1.1 用现有模型进行分类 106
7.1.2 获取Twitter 好友信息 107
7.1.3 构建网络 110
7.1.4 创建图 112
7.1.5 创建用户相似度图 114
7.2 寻找子图 117
7.2.1 连通分支 117
7.2.2 优化参数选取准则 119
7.3 小结 123
第8章 用神经网络破解验证码 124
8.1 人工神经网络 124
8.2 创建数据集 127
8.2.1 绘制验证码 127
8.2.2 将图像切分为单个的字母 129
8.2.3 创建训练集 130
8.2.4 根据抽取方法调整训练数据集 131
8.3 训练和分类 132
8.3.1 反向传播算法 134
8.3.2 预测单词 135
8.4 用词典提升正确率 138
8.4.1 寻找最相似的单词 138
8.4.2 组装起来 139
8.5 小结 140
第9章 作者归属问题 142
9.1 为作品找作者 142
9.1.1 相关应用和使用场景 143
9.1.2 作者归属 143
9.1.3 获取数据 144
9.2 功能词 147
9.2.1 统计功能词 148
9.2.2 用功能词进行分类 149
9.3 支持向量机 150
9.3.1 用SVM 分类 .......................... 151
9.3.2 内核 151
9.4 字符N 元语法 152
9.5 使用安然公司数据集 153
9.5.1 获取安然数据集 153
9.5.2 创建数据集加载工具 154
9.5.3 组装起来 158
9.5.4 评估 158
9.6 小结 160
第10章 新闻语料分类 161
10.1 获取新闻文章 161
10.1.1 使用Web API 获取数据 162
10.1.2 数据资源宝库reddit 164
10.1.3 获取数据 165
10.2 从任意网站抽取文本 167
10.2.1 寻找任意网站网页中的主要
内容 167
10.2.2 组装起来 168
10.3 新闻语料聚类 170
10.3.1 k-means 算法 171
10.3.2 评估结果 173
10.3.3 从簇中抽取主题信息 175
10.3.4 用聚类算法做转换器 175
10.4 聚类融合 176
10.4.1 证据累积 176
10.4.2 工作原理 179
10.4.3 实现 180
10.5 线上学习 181
10.5.1 线上学习简介 181
10.5.2 实现 182
10.6 小结 184
第11章 用深度学习方法为图像中的
物体进行分类 185
11.1 物体分类 185
11.2 应用场景和目标 ................................ 185
11.3 深度神经网络 189
11.3.1 直观感受 189
11.3.2 实现 189
11.3.3 Theano 简介 190
11.3.4 Lasagne 简介 191
11.3.5 用nolearn 实现神经网络 194
11.4 GPU 优化 197
11.4.1 什么时候使用GPU 进行
计算 198
11.4.2 用GPU 运行代码 198
11.5 环境搭建 199
11.6 应用 201
11.6.1 获取数据 201
11.6.2 创建神经网络 202
11.6.3 组装起来 204
11.7 小结 205
第12章 大数据处理 206
12.1 大数据 206
12.2 大数据应用场景和目标 207
12.3 MapReduce 208
12.3.1 直观理解 209
12.3.2 单词统计示例 210
12.3.3 Hadoop MapReduce 212
12.4 应用 212
12.4.1 获取数据 213
12.4.2 朴素贝叶斯预测 215
12.5 小结 226
附录 接下来的方向 227

前言/序言


《算法的世界:揭秘数据背后的逻辑》 在信息爆炸的时代,数据无处不在,它们如同浩瀚的星辰,蕴含着未知的奥秘与无限的可能。然而,这些原始的数据片段,若不经过精心的雕琢与深邃的洞察,便如散落的珍珠,难以闪耀其真正的光芒。本书《算法的世界:揭秘数据背后的逻辑》将带领读者踏上一段探索数据奥秘的奇妙旅程,深入理解那些驱动我们现代生活、影响决策、塑造未来的“算法”——那些隐匿在代码背后,却拥有强大力量的逻辑序列。 本书并非一本枯燥的技术手册,而是一次对“数据思维”的深入解读。我们将从最基础的概念出发,逐步揭示支撑海量信息运转的底层逻辑。算法,作为解决问题的系统化步骤,是连接原始数据与有价值洞察的桥梁。理解算法,就是理解数据如何被“讲述”故事,如何被转化为可操作的见解,从而为个人、企业乃至整个社会的发展提供指引。 第一章:数据思维的启蒙:从宏观到微观的视角转换 在开始任何深入的探索之前,建立正确的“数据思维”至关重要。本章将从宏观层面,探讨数据在我们生活中的渗透,以及数据驱动决策的时代特征。我们将思考:为什么数据如此重要?数据如何改变着我们的认知方式?从搜索引擎的个性化推荐,到医疗领域的精准诊断,再到金融市场的风险评估,数据的力量无处不在。 随后,我们将视角微观化,引入“算法”这一核心概念。什么是算法?它不仅仅是电脑程序,更是解决问题的通用方法论。我们将通过一些生活化的例子,如食谱、导航路线、排序逻辑,来类比算法的构成要素:输入、处理步骤和输出。我们将强调算法的抽象性与普适性,为后续深入理解各种具体算法打下坚实基础。这一章的目标是培养读者对数据的敏感度,以及对算法解决问题能力的初步认知。 第二章:数据的语言:理解数据的本质与结构 在深入算法之前,我们必须先学会“读懂”数据。本章将聚焦于数据的本质,探讨不同类型的数据,以及它们是如何被组织和存储的。我们将区分结构化数据(如数据库中的表格)、半结构化数据(如JSON、XML)和非结构化数据(如文本、图像、音频、视频),并分析它们的特点和处理难点。 理解数据的结构是进行有效分析的前提。我们将介绍数据的基本单位——变量,以及变量的类型(分类变量、数值变量等)。我们将探讨数据的度量方式,如比例、间隔、定序等,这些都将影响我们选择合适的分析方法。此外,我们还会触及数据质量的重要性,包括数据的准确性、完整性、一致性和时效性,并初步了解一些数据预处理的基本思想,例如缺失值处理和异常值检测。本章旨在让读者对数据的“原材料”有清晰的认识,为后续的加工和提炼做好准备。 第三章:算法的基石:搜索、排序与查找的智慧 在掌握了数据的语言后,我们可以开始接触一些最基础、最核心的算法。本章将从最易于理解的算法类型入手,展示算法如何高效地处理数据。 我们将首先探讨“搜索”算法。在海量数据中快速找到所需信息,是许多应用的基础。我们将介绍线性搜索和二分搜索等经典方法,并通过直观的比较,理解它们的效率差异。我们将讨论在何种数据结构下,哪种搜索算法更具优势。 接着,我们将转向“排序”算法。将数据按照特定规则重新排列,是数据分析和处理的常见需求。我们将深入讲解冒泡排序、选择排序、插入排序等简单但富有启发性的排序算法,并进一步介绍更高效的归并排序和快速排序。通过对这些算法的剖析,读者将能深刻理解“时间复杂度”和“空间复杂度”的概念,这些是衡量算法优劣的关键指标。 最后,我们将讨论“查找”算法,它与搜索算法紧密相关,但更侧重于在特定数据结构中定位元素。我们将介绍哈希表等数据结构,以及基于它们的高效查找算法。本章的目的是让读者对算法的基本操作和效率分析有一个直观的认识,为理解更复杂的算法建立信心。 第四章:模式的探索:分类与聚类的奥秘 数据中蕴含着各种各样的模式,而识别和利用这些模式是数据分析的核心目标之一。本章将聚焦于两大类重要的算法:分类算法和聚类算法。 “分类”算法旨在将数据划分到预定义的类别中。我们将介绍一些经典的分类算法,例如决策树,它能够以直观的方式解释分类规则。我们将探讨逻辑回归,理解它如何通过概率模型进行分类。我们将初步了解支持向量机(SVM),学习它如何寻找最优的分类边界。在本章中,我们将强调“监督学习”的概念,即算法通过带有标签的数据进行训练。 “聚类”算法则是在没有预先定义类别的情况下,自动将相似的数据点分组。我们将深入讲解K-Means聚类算法,它通过迭代寻找数据簇的中心。我们将讨论层次聚类,理解它如何构建数据点的层级关系。本章将引导读者理解“无监督学习”的魅力,以及如何从无序的数据中发现隐藏的结构。通过分类和聚类,数据将不再是孤立的点,而是被组织成有意义的群体,为进一步的洞察提供基础。 第五章:预测的艺术:回归与时间序列的展望 理解数据的过去,是为了更好地预测未来。本章将聚焦于“回归”算法和“时间序列”分析,它们是预测建模的两大重要分支。 “回归”算法的目标是预测一个连续的数值型输出。我们将详细讲解线性回归,理解它如何通过拟合直线来描述变量之间的关系。我们将探讨多元线性回归,以及如何处理多个预测变量。我们还将介绍一些非线性回归的方法,为处理更复杂的数据关系提供工具。 “时间序列”分析则专注于具有时间顺序的数据。我们将探讨时间序列数据的独特性质,例如趋势、季节性和周期性。我们将介绍一些基础的时间序列模型,例如移动平均和指数平滑,理解它们如何捕捉数据的动态变化。本章将为读者打开预测的大门,让他们了解如何利用历史数据来预测未来的趋势和数值。 第六章:关联的发现:关联规则挖掘与推荐系统的秘密 在许多商业场景中,发现数据项之间的关联性至关重要。本章将深入探讨“关联规则挖掘”,以及它如何驱动“推荐系统”的运作。 “关联规则挖掘”旨在发现数据集中频繁出现的项目组合。我们将介绍Apriori算法,理解它如何高效地找出频繁项集,并从中生成有用的关联规则,例如“购买了啤酒的顾客,也很可能购买尿布”。我们将讨论支持度、置信度和提升度等评估关联规则强度的指标。 基于关联规则的思想,我们将进一步探讨“推荐系统”的原理。从电商平台的商品推荐,到影音平台的影片推荐,再到社交媒体的内容推送,推荐系统已经深刻地改变了我们的信息获取方式。我们将解释基于内容的推荐、协同过滤等主流推荐策略,并分析它们的工作机制。本章将帮助读者理解,那些看似“懂你”的推荐背后,其实是精心设计的算法在默默工作。 第七章:算法的实践:从理论到应用的桥梁 理论的学习终究要回归实践。本章将带领读者将前几章学到的算法知识,应用于实际问题。虽然本书不深入具体的编程实现,但我们将强调“模型构建”和“模型评估”的重要性。 我们将讨论如何选择合适的算法来解决特定的业务问题。我们将介绍模型训练、参数调优和交叉验证等关键概念,理解如何避免“过拟合”和“欠拟合”的问题。 此外,我们将探讨模型评估的常用指标,例如准确率、精确率、召回率、F1分数(针对分类问题),以及均方误差、R²分数(针对回归问题)。通过这些指标,我们可以量化模型的性能,并对其进行优化。本章的目标是让读者理解,算法的价值在于其能否有效地解决实际问题,并学会如何衡量和提升算法的实用性。 第八章:算法的伦理与未来:负责任的数据应用 随着算法在社会中扮演的角色越来越重要,我们也必须关注其潜在的伦理问题。本章将引导读者思考算法的公平性、透明度和可解释性。 我们将讨论算法偏见可能带来的不公平后果,例如在招聘、信贷或司法领域。我们将探讨如何识别和缓解这些偏见。 我们还将讨论算法的透明度和可解释性。为什么一个算法会做出这样的决定?理解其决策过程,对于建立信任和进行有效的干预至关重要。 最后,我们将展望算法的未来发展趋势,例如机器学习、深度学习等更高级的技术,以及它们可能带来的机遇与挑战。本章旨在培养读者对算法应用的批判性思维,以及对负责任的数据科学的认知。 《算法的世界:揭秘数据背后的逻辑》是一次关于数据和算法的深度探索。它将帮助你建立强大的数据思维,理解数据工作的基本原理,并为你开启更广阔的数据分析和应用之路。无论你是希望提升职业技能的从业者,还是对数据世界充满好奇的学习者,本书都将是你的理想伙伴,带你拨开数据的迷雾,看见逻辑的本质。

用户评价

评分

我对数据分析领域一直充满浓厚的兴趣,尤其是在接触到Python之后,更是渴望能将这份兴趣转化为实际的技能。 《Python数据挖掘入门与实践》这个书名让我感觉这本书非常贴合我的需求。我一直在寻找一本能够真正带领我深入理解数据挖掘核心概念,并通过Python进行实践的书籍。我理想中的这本书,能够从最基础的数据处理开始,比如如何读取、清洗、转换各种格式的数据,然后逐步深入到特征工程,让我明白如何从原始数据中提取出对建模有用的信息。紧接着,我希望能学习到各种常见的机器学习算法,比如分类、回归、聚类等,并且最好能有清晰的算法原理讲解和Python代码实现。重要的是,我希望这本书能够提供实际的项目案例,让我能够跟着作者的步骤,一步步完成一个完整的数据挖掘项目,从数据理解到模型部署。我希望通过这本书,能够掌握如何选择合适的算法,如何评估模型的性能,以及如何优化模型以达到更好的效果。如果书中还能包含一些数据可视化的内容,帮助我更好地展示和解释数据分析结果,那将是锦上添花。总而言之,我希望这本书能够帮助我构建起扎实的数据挖掘基础,并且能够让我有信心去应对真实世界的数据挑战。

评分

一直以来,我都在寻找一本能够真正帮助我将理论知识转化为实际技能的书籍,而《Python数据挖掘入门与实践》这个书名让我眼前一亮。我特别看重的是书中“实践”二字所代表的动手能力培养。我希望这本书不是那种枯燥的理论堆砌,而是能够通过大量的代码示例和项目实战,让我真正地“玩转”数据。我设想中的这本书,应该能够覆盖从数据获取、数据预处理到模型构建和优化的完整流程。例如,书中能否提供一些真实世界的数据集,并带领我完成从数据探索到提取有价值信息的全过程?我希望看到书中能够介绍一些Python中常用的数据科学库,比如Pandas、NumPy、Scikit-learn等,并详细讲解它们的核心功能和使用方法。对于初学者而言,能够清晰地理解各种算法的适用场景和优缺点也非常重要。我希望书中能够循序渐进地介绍一些经典的数据挖掘算法,并附带Python实现代码,让我能够通过实践来加深对这些算法的理解。此外,我还希望书中能够包含一些关于如何解释模型结果、如何避免常见错误以及如何评估模型性能的指导。这本书如果能够帮助我建立起一个系统性的数据挖掘思维框架,并让我能够自信地动手解决实际问题,那将是对我学习之路的巨大助力。

评分

这本书的名字听起来就让我对它充满了好奇,我一直觉得数据挖掘是个非常有趣且实用的领域,而Python又是目前最受欢迎的编程语言之一,所以“Python数据挖掘入门与实践”这个书名简直完美契合了我的学习需求。我尤其关注的是书中是否能够提供足够多的实战案例,毕竟“实践”两个字承诺了实际操作的重要性。我希望这本书能引导我从零开始,一步步理解数据挖掘的基本概念,比如数据清洗、特征工程、模型选择和评估等,并且能够通过Python代码清晰地展示每一步的实现过程。同时,我还在期待书中能够介绍一些常用的数据挖掘算法,比如决策树、支持向量机、聚类算法等,并讲解它们背后的原理以及在Python中如何应用。如果书中还能包含一些关于数据可视化的小技巧,那就更棒了,因为我深知清晰的图表能够极大地帮助我们理解数据和分析结果。我是一个零基础的学习者,所以书中内容是否易于理解、逻辑是否清晰、语言是否通俗易懂,将是我衡量这本书价值的重要标准。总而言之,我希望这本书能够成为我踏入数据挖掘领域的敲门砖,让我感受到数据分析的魅力,并能初步具备独立解决一些数据问题的能力。

评分

从书名《Python数据挖掘入门与实践》就能感受到这本书的实用性和面向初学者的定位,这正是我所急切需要的。我一直对数据背后的故事充满好奇,并渴望能掌握用Python来挖掘这些故事的技能。我希望这本书能够提供一条清晰的学习路径,从Python基础知识的简单回顾(如果需要的话)开始,然后迅速过渡到数据科学的核心库,如Pandas和NumPy,以及进行建模的核心库Scikit-learn。我非常期待书中能提供详实的例子,详细阐述如何使用这些库来完成数据预处理的各个环节,比如数据加载、清理、转换、合并等。对于初学者来说,理解不同数据挖掘算法的原理及其适用场景至关重要,我希望书中能够用简洁明了的方式讲解一些经典的算法,并展示如何在Python中实现它们。此外,我尤其看重“实践”二字,所以我期望书中能够包含一个或多个完整的项目案例,能够让我从头到尾跟着操作,感受数据挖掘从无到有的全过程。这包括数据收集、探索性数据分析(EDA)、特征工程、模型选择、训练、评估和调优。如果书中还能涉及到一些数据可视化技术,能够帮助我更好地理解和展示分析结果,那将是极大的加分项。总的来说,我期待这本书能够成为我进入数据挖掘领域的一本宝典,让我能够真正动手,解决实际问题。

评分

当我看到《Python数据挖掘入门与实践》这本书名时,我的第一反应是它能否真正帮助我这个对数据挖掘了解不多的新手。我最看重的是“入门”二字所承诺的易学性和“实践”二字所代表的动手性。我希望这本书能够像一位耐心的老师,从最基础的Python语法和数据科学库的介绍开始,逐步引导我进入数据挖掘的殿堂。我期待书中能够用通俗易懂的语言解释那些听起来有些晦涩的数据挖掘概念,例如什么是特征提取,什么是模型评估指标,以及它们在实际应用中的意义。更重要的是,我希望这本书能够提供大量的、可执行的代码示例,让我能够边学边练。我希望书中能展示如何使用Python库来完成数据的加载、清洗、转换,以及如何应用各种算法进行预测、分类或聚类。我还希望能看到一些实际案例分析,例如如何利用数据挖掘技术来解决一些常见的业务问题,比如客户流失预测、商品推荐等。如果书中能包含一些关于如何处理缺失值、异常值,以及如何进行特征选择和降维的技巧,那将对我非常有帮助。我希望通过阅读这本书,能够建立起对数据挖掘的基本认知,并掌握一些基本的数据挖掘工具和方法,为我未来更深入的学习打下坚实的基础。

评分

不错,易懂

评分

东西不错,质量很好,很有用,下次还会买。

评分

goooood

评分

还不错还不错还不错还不错

评分

很号,不错,值得看看。

评分

物美价廉,值得再来购买,不错

评分

非常不错的专业参考书籍,内容翔实。

评分

很实用的书,写得详尽,而且案例丰富多样,是入门的好教材

评分

京东物流就是快,书也很不错。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有