数据挖掘与商务分析:R语言

数据挖掘与商务分析:R语言 pdf epub mobi txt 电子书 下载 2025

[英] 约翰尼斯·莱道尔特 著,王星 等 译
图书标签:
  • 数据挖掘
  • 商务分析
  • R语言
  • 统计学习
  • 机器学习
  • 数据分析
  • 商业智能
  • 数据可视化
  • 预测建模
  • R语言编程
想要找书就要到 静思书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 机械工业出版社
ISBN:9787111549406
版次:1
商品编码:12060366
品牌:机工出版
包装:平装
丛书名: 数据科学与工程技术丛书
开本:16开
出版时间:2016-10-01
用纸:胶版纸
页数:266

具体描述

内容简介

  从海量的数据中收集、分析、提取有价值的信息需要功能强大的分析工具,本书结合R软件详细介绍了数据挖掘和数据分析的实用方法,主要内容包括处理信息和获取数据、标准线性回归、局部多项式回归、统计建模中简约的重要性、Logistic回归、贝叶斯分析、多项式Logistic回归、决策树、聚类、购物篮分析、降维和网络数据等。书后配有练习并且书中所有例子涉及的数据集和R代码可以从本书配套网站获取。

目录

译者序 前言 致谢 第1章引言 参考文献 第2章处理信息与认识数据 2.1例1:2006年出生数据 2.2例2:校友捐赠 2.3例3:橘子汁 参考文献 第3章标准线性回归 3.1用R函数估算线性回归模型 3.2例1:汽车燃油效率 3.3例2:丰田二手车价格 附录3.A模型过度拟合对回归预测均方误差的影响 参考文献 第4章局部多项式回归的非参数回归方法 4.1模型的选择 4.2密度估计和直方图平滑化的应用 4.3多重回归模型的拓展 4.4例题和软件 4.4.1例1:老忠实喷泉 4.4.2例2:NOx排放物 参考文献 第5章简约在统计建模中的重要性 5.1怎样防止低假阳率 参考文献 第6章多参数回归模型中基于惩罚算法的变量选择 6.1例1:前列腺癌 6.2例2:橙汁 参考文献 第7章Logistic回归 7.1对二分类响应数据建立线性模型 7.2Logistic回归模型中回归系数的解释 7.3统计推断 7.4对新样例的分类 7.5用R语言估计 7.6例1:死刑数据 7.6.1二分类Logistic回归:Minitab程序输出 7.6.2R语言输出结果的解释与分析 7.7例2:延误的航班 7.8例3:贷款验收 7.9例4:德国信贷数据 参考文献 第8章二元分类、概率和分类性能的评价 8.1二元分类 8.2使用概率作决策 8.3灵敏度和特异度 8.4例子:德国信贷数据 第9章最近邻分析分类 9.1k近邻算法 9.2例1:玻璃碎片的法医分析 9.3例2:德国信贷数据 参考文献 第10章朴素贝叶斯分析:一种由以分类为主的变量对分类响应变量预测的模型 10.1例:航班延误 参考文献 第11章多项式Logistic回归 11.1计算软件 11.2例1:玻璃碎片的法医分析 11.3例2:重温玻璃碎片的法医分析 附录11.A简单三重矩阵的详述 参考文献 第12章分类和判别分析的深入探讨 12.1Fisher线性判别函数 12.2例1:德国信用卡数据 12.3例2:Fisher鸢尾花数据 12.4例3:玻璃碎片的法医分析数据 12.5例4:MBA申请数据 参考文献 第13章决策树 13.1例1:前列腺癌 13.2例2:摩托车加速度 13.3例3:回顾Fisher鸢尾花数据集 第14章回归、分类树、计算软件及其他实用分类方法的深入探讨 14.1有关树结构的R程序包 14.2卡方自动交互检验 14.3集成方法:Bagging算法、Boosting算法和随机森林 14.4支持向量机 14.5神经网络 14.6R程序包:关于数据挖掘的一个有用的图形用户界面 参考文献 第15章聚类 15.1k均值聚类 15.2另眼看聚类:将期望最大化算法应用于混合正态分布 15.2.1E步 15.2.2M步 15.3层次聚类过程 参考文献 第16章购物篮分析:关联规则和提升度 16.1例1:在线广播 16.2例2:收入预测 参考文献 第17章降维:因子模型和主成分分析 17.1例1:欧洲蛋白质的摄入数据 17.2例2:月度失业率数据 第18章带多重共线性输入的降维回归:主成分回归和偏最小二乘法 18.1三个例子 18.1.1例1:模拟数据 18.1.2例2:基于50个州的历史失业率预测某州下个月的失业率 18.1.3例3:预测下月失业率:比较不同方法样本外预测效果 参考文献 第19章文本数据:文本挖掘和情感分析 19.1逆多项式Logistic回归 19.2例1:餐馆评论 19.3例2:政治主张 附录19.A Gentzkow/Shapiro关于“slant”的估计和偏最小二乘的关系 参考文献 第20章网络数据 20.1例1:15世纪佛罗伦萨的婚姻与权力 20.2例2:友谊网络的连接 参考文献 附录A练习 附录B参考文献

前言/序言

  前言  这是一本有关数据挖掘和商务分析的实用方法的图书,适用于迫切需要使用这些方法来了解运营状况并解决经营问题的读者。写作本书的目的是对获得公众口碑的数据挖掘工具进行全面讨论,而不仅仅局限于传统的黑箱式描述,展现这些方法的工作机理。   数据挖掘需要一套功能强大、计算精准、兼容良好的计算工具,在这方面微软的Excel难以胜任。尽管我们也多次获得许多供应商专门提供的卓越的数据挖掘商务软件,但通常来说这些软件价格昂贵。书中我们所使用的R统计软件功能强大而且免费。不过要想正常使用R需要一些学习代价,它需要用户写指令,而大多数电子表格用户对程序指令的编写并不熟悉,这也是我在书中和与本书相关的网页上提供R示例代码的原因。这些示例代码应该可以顺利地迁移到当下通用的、强大的计算机环境中,并有助于最小化R的学习成本。   本书采用了将软件与数据挖掘的统计基础相融合的写作风格,同时也推广了工具的应用。虽然市面上不乏深入阐述这些方法的教材,也不缺乏对R计算的详尽完整的说明手册。但是本书力图权衡理论与实践,定位于对定量方法感兴趣的MBA学生的认知层次。本书适用于MBA的数据挖掘课程,以及高年级本科生和研究生的分析与解释大数据集的课程。从事商学、社会学、自然科学、医学以及工科的学生都可以从本书受益。本书所涉大部分主题可以安排在一个学期的课程中,但是包括的主题并不适用于每一个读者。可能有些读者会认为其中一些主题内容太深或者太浅。建议主讲老师略去或适当扩展某些主题。从这个角度来看,本书可以适用于很多不同的读者。   数据挖掘的应用常常需要花大力气收集相关信息。在这种情况下,数据的准备工作比最终建立模型需要花费更多的时间。在另外一些应用中,数据收集的工作量并非大问题,工作的重点是大容量信息的存取(即数据仓库)。尽管如何获取、存储、合并和整理信息在数据分析全过程来说必不可少,但书中对这些技术细节并未做深入探讨,本书重点介绍数据挖掘的建模。   本书所述全部例子的数据集和R代码都可以在配套网页(http://www.biz�眜iowa�眅du/faculty/jledolter/DataMining)上找到。也可以通过在booksupport�眞iley�眂om上输入ISBN 9781118447147获取本书的附加材料。读者可以将书中的代码复制粘贴到自己的R会话中,从而得到分析结果。也可以在软件中修改或添加一些代码来做数据实验,以及用我们给的R模板程序对自己的数据集进行分析。附录给出了练习和几个大的练习数据集。练习有助于老师布置课后作业,也为读者提供了一个实践书中所讨论技巧的机会。如何使用这些数据集的相关说明请参见附录A。   这是本书第1版,尽管在表述和例证数据集的分析上我们很小心谨慎,但不得不承认其中有很多地方还值得推敲。如果在阅读本书的过程中有任何反馈,我们将不胜感激,期待你将你的建议通过johannes�瞝edolter@uiowa.edu邮箱写信给我。相关的勘误和评论我将在本书的网页上随时更新。   致谢2011年我访问芝加哥大学布斯商学院时,忽然为一篇MBA方面有关数据挖掘的文章中的素材产生了兴趣。芝加哥大学著名教授Matt Taddy的数据挖掘(BUS41201)课件为本书的撰写提供了灵感,在表述上我同样受到Taddy教授课件中的案例和R模板的影响。第19章中关于文本数据的分析也大量引用了他近期的研究成果,由衷感谢Taddy教授对本书的贡献。   著书是一项耗时的工作。如果没有妻子Lea Vandervelde的持续支持和鼓励,无法想象我的这项工作可以画上句号。她是艾奥瓦大学从事密苏里州奴隶自由史研究的教授,同时她的亲身体验告诉我,从文本数据的挖掘中构建数据集是一项多么重要和艰难的工作。   译者序  本书英文版自出版后就在Amazon上得到了极高的评价,曾经是Amazon网站上最畅销的数据挖掘类书籍之一。   本书的作者Johannes Ledolter是世界顶尖商学院——美国艾奥瓦大学Tippie商学院管理科学系的一位数据挖掘专家,同时也是一位R资深开发者。本书包括多达19个数据挖掘的翔实案例,内容十分丰富,涉及医疗、慈善、汽车、二手市场等行业领域。书中案例从数据量、分析目标、数据类型等方面提出了各种具有挑战性的问题,并给出了克服这些挑战的方法和技巧。本书专注于数据挖掘的建模,以实际问题、解决方案以及探讨解决方案为主线组织内容。读者需要具备一定的数据挖掘基础知识,同时对R有一定的了解。但本书也对R计算进行了详尽完整的说明,对于零基础的读者来说,还可以通过直接复制书中提供的R程序来学习相应的数据挖掘算法。本书定位于面向定量方法的MBA学生,同时也适用于大数据分析的本科生及研究生,适合作为数据挖掘的教材或学习指南。   本书的翻译工作由宋涛、王星和曹方共同完成。在本书的翻译过程中,原作者Johannes博士多次就译者提出的问题进行了耐心而细致的解答。这里对他的帮助表示由衷的谢意。由于水平所限,书中可能会有翻译不当之处,希望读者多加指正。   必须说明的是,本项工作是集体努力的结果。其中,王星老师在翻译和统稿过程付出了大量心血,她的坚持使我打消了放弃此项目的想法。此外,余阿炎、曹家铭、温丽、丁虹元、俞良、金璐等人也参与了本书的翻译。感谢王宝东、宋辰玉、宋燕、仓猛、刘宇等完成了清样的校对和通读。还有许多其他同学和同事在不同阶段参与了本项工作,在此不再一一列出。   为进一步探讨、解析和扩展本书中的案例,译者团队将在“数据科学家”公众号中免费为各位读者奉献更多更翔实的R案例内容。可扫描以下二维码,关注“数据科学家”微信公众号,获得更多有关数据科学和R应用的最新知识。   宋涛2016年9月
洞察数据,赋能决策:一本关于深度学习与业务创新的实践指南 在当今信息爆炸的时代,数据已成为企业最宝贵的资产。然而,如何从海量数据中提炼出有价值的洞察,并将其转化为驱动业务增长的战略,是无数企业面临的挑战。本书并非聚焦于特定工具或语言的枯燥讲解,而是致力于提供一套全面的、面向未来的深度学习与业务创新实践方法论。我们相信,理解并应用这些先进技术,将赋予您超越数据表面的能力,构建真正具有竞争力的业务模式。 本书将带您踏上一场探索深度学习如何赋能业务创新的旅程。我们不会停留在理论的象牙塔,而是深入剖析那些在实际商业场景中取得成功的案例,并提炼出可复制的、可操作的策略。从理解深度学习的核心概念,到掌握其在不同业务领域的应用,本书将为您构建一个清晰的知识体系。 第一部分:深度学习的基石——理解驱动创新的核心力量 在深入探讨具体应用之前,我们需要为读者打下坚实的理论基础。这部分内容将以一种易于理解的方式,介绍深度学习的关键概念,但重点并非数学公式的推导,而是其背后的逻辑和直观感受。 智能的涌现:从感知到认知 我们将从人类学习的本质出发,引申到神经网络如何模仿生物神经元的工作方式,从而实现模式识别和特征提取。 您将了解什么是“深度”,为什么“深度”如此重要,以及它如何带来更强大的表示能力。 我们将探讨不同类型的神经网络,如卷积神经网络(CNN)在图像识别领域的突破,以及循环神经网络(RNN)在序列数据处理中的独到之处,并理解它们各自的优势与适用场景,例如如何通过CNN识别客户行为中的模式,或通过RNN预测市场趋势。 特征的自动学习:告别繁琐的人工提取 传统的机器学习方法往往需要领域专家花费大量精力进行特征工程。本书将揭示深度学习如何通过层层递进的结构,自动从原始数据中学习出最优的、最有区分度的特征。 您将理解“表示学习”的概念,即模型如何学会一种比原始数据更有意义的表示方式,从而大大简化后续分析。 我们将以一个简单的例子,说明如何通过神经网络自动识别产品评论中的情感倾向,而无需手动定义“积极”、“消极”等词汇。 模型的训练与优化:精益求精的艺术 了解模型是如何从数据中“学习”的至关重要。我们将介绍常用的损失函数和优化算法,但同样着重于其直观含义和应用场景,例如梯度下降如何帮助模型找到最佳参数。 我们将讨论过拟合和欠拟合的问题,以及正则化、早停等技术如何帮助模型获得更好的泛化能力。 您将理解,模型的训练并非一次性的过程,而是需要不断迭代和调优的艺术。 第二部分:深度学习驱动的业务洞察——发掘数据背后的商业价值 在掌握了深度学习的基础之后,我们将开始将这些强大的工具应用于实际的业务场景,发掘数据中隐藏的巨大价值。 客户行为的深度剖析:从预测到个性化 客户流失预测与干预: 深度学习模型能够捕捉到客户行为中细微的变化,从而更早、更准确地预测哪些客户有流失风险。我们将探讨如何构建模型,识别流失的关键驱动因素,并设计个性化的挽留策略。例如,通过分析客户的交易记录、互动频率、服务请求等,模型可以识别出潜在的流失信号,并触发相应的营销活动或客户关怀措施。 精准营销与个性化推荐: 告别“一刀切”的营销方式。深度学习能够深入理解每个客户的偏好、需求和购买意愿,实现千人千面的营销推送和产品推荐。我们将介绍如何利用协同过滤、内容推荐以及深度学习混合模型,构建高效的推荐系统,提升转化率和客户满意度。例如,电商平台的“猜你喜欢”以及内容平台的个性化信息流,都离不开深度学习技术的支撑。 客户情感分析与舆情监控: 客户的反馈是改进产品和服务的重要依据。深度学习在自然语言处理(NLP)领域的飞速发展,使得我们能够自动化地分析海量的文本数据,如社交媒体评论、客服记录、在线评价等,从而洞察客户的情感倾向、关注点和痛点。我们将探讨如何利用情感分析技术,及时发现潜在的品牌危机,并针对性地优化产品和服务。 运营效率的智能化提升:自动化与优化 智能客服与问答系统: 深度学习驱动的智能客服能够理解自然语言的提问,并提供准确、高效的解答,极大地减轻了人工客服的压力,提升了客户服务体验。我们将介绍如何构建基于知识图谱和深度学习的智能问答系统,解决重复性咨询问题,并将复杂问题转接给人工处理。 供应链与库存优化: 需求预测的准确性是供应链管理的关键。深度学习模型能够结合历史销售数据、季节性因素、促销活动、宏观经济指标等多种信息,进行更精细化的需求预测,从而优化库存水平,降低仓储成本,减少缺货损失。 欺诈检测与风险控制: 在金融、电商等领域,欺诈行为给企业带来巨大的损失。深度学习模型能够识别出异常的交易模式和行为,有效地检测和预防欺诈行为。我们将探讨如何利用图神经网络等技术,分析复杂的交易关系,发现隐藏的欺诈网络。 产品与服务创新的新引擎:洞察需求,驱动迭代 市场趋势预测与产品创新: 通过分析海量的市场数据、用户反馈、行业报告,深度学习能够帮助我们预测未来的市场趋势,识别新兴的需求点,从而指导新产品的研发和现有产品的迭代。 用户体验优化: 深度学习可以通过分析用户在产品使用过程中的行为数据,例如点击路径、停留时间、错误操作等,来发现用户体验的瓶颈,并提出改进建议。 内容生成与自动化创作: 在媒体、广告等领域,深度学习正在赋能自动化内容生成,例如新闻摘要、产品描述、广告文案等,极大地提高了内容生产的效率。 第三部分:走向实战——深度学习业务创新的落地策略 理论和应用固然重要,但如何将深度学习真正落地,转化为可持续的业务价值,是本书的最终目标。 数据战略与治理:创新的基石 高质量数据的获取与清洗: “垃圾进,垃圾出”。我们将强调数据质量的重要性,并介绍数据清洗、预处理、标注等关键环节。 数据孤岛的打破与整合: 很多企业的数据分散在不同的系统和部门。我们将探讨如何打破数据孤岛,构建统一的数据平台,实现数据的互联互通。 数据隐私与安全: 在享受数据带来的便利的同时,我们必须高度重视数据隐私和安全问题。我们将介绍相关的法规和最佳实践。 技术选型与平台搭建:赋能创新 开源生态系统的价值: 我们将介绍主流的深度学习框架(如 TensorFlow、PyTorch)及其生态系统,并讨论如何利用开源社区的力量加速创新。 云平台与基础设施: 云计算提供了强大的计算能力和灵活的存储资源,是深度学习项目落地的理想选择。我们将探讨如何选择合适的云服务。 技术团队的构建与协作: 深度学习项目的成功离不开一支专业的技术团队。我们将讨论团队的构成、技能要求以及跨部门协作的重要性。 敏捷迭代与 A/B 测试:持续优化 从小处着手,快速验证: 并非所有项目都需要一步到位。我们将鼓励读者采取敏捷的开发模式,从小的POC(概念验证)项目开始,快速验证想法的可行性。 A/B 测试在业务创新中的应用: 通过严谨的 A/B 测试,我们可以客观地评估不同模型或策略的效果,并做出数据驱动的决策,避免盲目投入。 持续监控与模型迭代: 市场和业务环境是不断变化的,模型也需要持续监控和更新,以保持其准确性和有效性。 文化转型与组织赋能:创新思维的渗透 拥抱数据驱动的文化: 技术的引入需要组织文化的支撑。我们将探讨如何培养全员的数据意识,鼓励大胆尝试和持续学习。 业务与技术的融合: 深度学习的价值最终体现在业务的增长上。我们需要促进业务部门与技术部门之间的深度沟通与协作,确保技术创新真正服务于业务目标。 伦理考量与负责任的 AI: 随着人工智能的广泛应用,伦理问题日益突出。我们将引导读者思考 AI 的公平性、透明度和可解释性,以及如何构建负责任的 AI 系统。 本书的目标是成为您在深度学习与业务创新道路上的忠实伙伴。我们希望通过深入浅出的讲解、丰富的实践案例和前瞻性的策略,帮助您掌握驾驭数据、驱动创新的能力,在瞬息万变的商业世界中,占据先机,实现可持续的增长。这本书不是终点,而是您开启数据驱动业务创新之旅的起点。

用户评价

评分

我一直坚信,掌握一项新技能的关键在于实践,而这本书正是为实践而生。它提供的不仅仅是知识,更是一种解决问题的思维方式。在阅读的过程中,我不仅学习了如何使用 R 语言进行数据分析,更学会了如何将这些工具应用于实际的商业问题。书中对各种分析方法的优劣势的对比分析,以及如何根据不同的业务需求选择合适的工具,都让我受益匪浅。我开始尝试将书中的方法应用到我自己的工作中,并且已经看到了初步的成效,这让我对未来的学习和应用充满了信心。

评分

这本书的装帧设计颇具匠心,封面以深邃的蓝色为主调,点缀着抽象的数据流线条,仿佛将读者带入一个充满未知与探索的数据宇宙。书脊的烫金字体清晰而稳重,散发出一种学术的严谨感,同时又不失现代科技的时尚气息。拿到手里,纸张的质感非常不错,细腻而富有弹性,翻页时没有刺耳的摩擦声,有一种温润的触感,让人忍不住想要沉浸其中。

评分

我一直对如何从海量数据中提炼出有价值的洞察力感到着迷,而这本书恰好满足了我的好奇心。它不仅仅是一本关于理论的书籍,更像是一位经验丰富的向导,一步步带领我领略数据挖掘的奥秘。作者在讲解概念时,总是能用通俗易懂的比喻,将复杂的算法和模型变得清晰明了。我尤其喜欢书中那些详实的案例分析,它们涵盖了市场营销、客户关系管理、风险评估等多个领域,让我能直观地看到数据分析在实际商业场景中的应用,这对于我理解理论知识的应用落地非常有帮助。

评分

对于我这样一个初学者来说,能够找到一本既系统又易于上手的书籍至关重要。这本书在这方面做得非常出色。它从基础的概念讲起,循序渐进,难度逐渐提升,让我在学习过程中不会感到 overwhelming。每个章节的安排都非常合理,逻辑清晰,让我能够轻松地跟上作者的思路。更重要的是,书中提供的代码示例和练习题,都极具实践价值,我尝试着在自己的电脑上运行,并根据自己的想法进行修改,这个过程极大地提升了我的动手能力,也让我对数据分析工具的使用更加熟练。

评分

这本书的语言风格非常吸引我。作者的叙述方式不是那种枯燥的学术报告,而更像是在与一位朋友交流。他善于运用一些生动的语言,偶尔还会穿插一些幽默的桥段,让原本可能严肃的技术内容变得轻松有趣。我特别欣赏他对于一些关键概念的解释,总是能够从不同的角度切入,确保读者能够全面地理解。比如,在讲解聚类分析的时候,他不仅解释了算法的原理,还生动地比喻了它就像是在茫茫人海中寻找志同道合的朋友,这种代入感极强,让我瞬间就对这个概念有了更深的体会。

评分

不错

评分

非常好的书,值得认真读一读,并且对工作有帮助

评分

不错,活动价格比较实惠的。

评分

此系列书基本上是统计类转型数据科学必备,,必读

评分

不错

评分

不错

评分

大数据分析的优选软件,书籍系统性不错

评分

好书,强烈推荐,收获剖多,值得一读

评分

经典好书,认真研读。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有