在任何国家及任何制度下都能够生存和发展的知识和能力,就是科学,是人们在生命的历程中应该获得的。
吴喜之
1 纠正了传统教材只重视回归而忽视分类的偏见
2 实际工作中,分类的需求并不比回归少,在分类领域, 机器学习方法在应用范围及预测精度上都普遍超过传统的诸如判别分析和二元时的logistic回归等参数方法。
3 本书以数据为导向,对应不同的数据介绍尽可能多的方法, 并且说明各种方法的优点、缺点及适用范围. 对于不同模型的比较, 本书将主要采用客观的交叉验证的方法.
本书包括的内容有: 经典线性回归、广义线性模型、纵向数据(分层模型), 机器学习回归方法(决策树、bagging、随机森林、mboost、人工神经网络、支持向量机、k最近邻方法)、生存分析及Cox模型、经典判别分析与logistic回归分类、机器学习分类方法(决策树、bagging、随机森林、adaboost、人工神经网络、支持向量机、k最近邻方法). 其中, 纵向数据(分层模型)及生存分析及Cox模型的内容可根据需要选用, 所有其他的内容都应该在教学中涉及, 可以简化甚至忽略的内容为一些数学推导和某些不那么优秀的模型, 不可以忽略的是各种方法的直观意义及理念.
吴喜之,北京大学数学力学系本科,美国北卡罗来纳大学统计博士。中国人民大学统计学院教授,博士生导师。曾在美国加利福尼亚大学、北卡罗来纳大学以及南开大学、北京大学等多所著名学府执教。
第一章 引言
第二章 经典线性回归
第三章 广义线性模型
第四章 纵向数据及分层模型
第五章 机器学习回归方法
第六章 生存分析及Cox模型
第七章 经典分类:判别分析
第八章 机器学习分类方法
附录 练习:熟练使用R软件
参考文献
本书不像很多教科书那样只讲80年之前的以数学假定和推导为主的内容, 而要强调最近20年最新和最有效的统计方法. 本书还冠以``分类''二字, 是为了纠正由于只有``回归''而鲜有(如果不是没有)``分类''教科书而造成的人们以为回归比分类更重要的偏见. 实际上, ``分类''一词很少出现在教科书的书名中的主要原因恐怕是长期以来数学主导的统计界缺乏除了判别分析之外的数学式的分类方法, 而引入近年来新发展的机器学习方法似乎又不合那些只认数学公式的一些统计学家的胃口.
回归和分类的问题是相同的, 仅区别于因变量的形式. 在统计应用中, 最常见的是根据数据建立从自变量来预测因变量的模型, 也就是说, 用包含自变量和因变量的数据来训练一个模型, 然后用这个模型拟合新的自变量的数据来预测新的因变量的值.
目前有很多关于回归教科书和课程, 但鲜有关于分类的教科书和课程. 而在回归中又以通常称为线性模型的线性最小二乘回归为主, 其原因是在前计算机时代, 线性模型是数学上最方便也最容易研究的模型, 关于线性模型的大量数学结果使其成为硕果累累的一大领域. 从线性模型又引申出非线性模型、广义线性模型、随机效应混合模型等新的建模方向, 使得回归领域不断扩大. 而在分类方面, 仅有在多元分析名下的``判别分析''可以做分类. 分类方面的研究在计算机出现前的很长一段时间远远不如回归那么普遍.
然而在实际工作中, 分类的需求并不比回归少, 但是, 由数学家所发明的经典方法无力解决如此多种多样的分类问题, 而又没有多少人愿意在文献中介绍他们不能解决的问题. 除此之外, 传统的回归方法也由于其对数据所限定的种种无法验证的假定而受到极大限制和挑战. 计算机时代的到来彻底改变了这种局面. 各种机器学习方法的出现全面更新了传统回归领域的面貌和格局. 机器学习方法充分显示出回归预测上的优越性能. 在分类领域, 机器学习方法在应用范围及预测精度上都普遍超过传统的诸如判别分析和二元时的logistic回归等参数方法.
本书的宗旨就是既要介绍传统的回归和分类方法, 又要引入机器学习的方法, 并且通过实际例子, 运用R软件来让读者能够理解各种方法的意义和实践, 能够自主做数据分析并得到结论.
传统的回归分析教科书, 通常只讲所述方法能够做什么, 不讲其缺点和局限性, 并很少涉及其他可用的方法, 而本书以数据为导向, 对应不同的数据介绍尽可能多的方法, 并且说明各种方法的优点、缺点及适用范围. 对于不同模型的比较, 本书将主要采用客观的交叉验证的方法. 对于每一个数据以及通过数据所要达到的目的, 都有许多不同的方法可用, 但具体哪种方法或模型最适合, 则依数据及目标而定, 绝不事先决定.
本书所有的分析都通过免费的自由软件R来实现.读者可以毫不困难地重复本书所有的计算. R网站拥有世界各地统计学家贡献的大量最新软件包(package), 这些程序包以飞快的速度增加和更新, 已从2009年底的不到1000个增加到2015年8月中旬的7000多个. 它们代表了统计学家创造的针对各个统计方向及不同应用领域的崭新统计方法. 这些程序包的代码大多是公开的. 与此相对比, 所有商业软件远没有如此多的资源, 也不会更新得如此之快, 而且商业软件的代码都是保密的昂贵``黑匣子''.
在发达国家, 不能想象一个统计研究生不会使用R软件. 那里很多学校都开设了R软件的课程. 今天, 任何一个统计学家想要介绍和推广其创造的统计方法, 都必须提供相应的计算程序, 而发表该程序的最佳地点就是R网站. 由于方法和代码是公开的, 这些方法很容易引起有关学者的关注, 这些关注对研究相应方法形成群体效应, 推动其发展. 不会编程的统计学家在今天是很难生存的.
在学校中讲授任何一种商业软件都是为该公司做义务广告, 如果没有相关软件公司的资助, 就没有学校愿意花钱讲授商业软件. 在教学中使用盗版软件是违法行为, 绝对不应该或明或暗地鼓励师生使用盗版商业软件, 使得师生通过盗版软件对其产生依赖性, 并抑制人们自由编程能力的发展.
对R软件编程的熟悉还有助于学习其他快速计算的语言, 比如C++, FORTRAN, Python, Java, Hadoop, Spark, NoSQL, SQL等, 这是因为编程理念的相似性, 这对于应对因快速处理庞大的数据集而面临的巨大的计算量有所裨益. 而熟悉一些傻瓜式商业软件, 对学习这些语言没有任何好处.
本书试图让读者理解世界是复杂的, 数据形式是多种多样的, 必须有超越书本、超越所谓权威的智慧和勇气, 才能充满自信地面对世界上出现的各种挑战.
由于统计正以前所未有的速度发展, R网站及其各个程序包也在不断更新, 因此, 笔者希望读者通过对本书的学习, 学会如何通过R不断学习新的知识和方法. ``授人以鱼, 不如授之以渔'', 成功的教师不是像百科全书那样告诉学生一些现成的知识, 而是让学生产生疑问和兴趣, 以促进其做进一步的探索.
本书所有的数据例子都可以从网上找到并且下载. 这些例子背后都有一些理论和应用的故事. 笔者并没有刻意挑选例子所在的领域, 统计方法对于各个实际领域是相通的. 我们想要得到的是到任何领域都能施展的能力, 而不是有限的行业培训. 如果你能够处理具有挑战性的数据, 那么无论该数据来自何领域, 你的感觉都会很好.
本书包括的内容有: 经典线性回归、广义线性模型、纵向数据(分层模型), 机器学习回归方法(决策树、bagging、随机森林、mboost、人工神经网络、支持向量机、k最近邻方法)、生存分析及Cox模型、经典判别分析与logistic回归分类、机器学习分类方法(决策树、bagging、随机森林、adaboost、人工神经网络、支持向量机、k最近邻方法). 其中, 纵向数据(分层模型)及生存分析及Cox模型的内容可根据需要选用, 所有其他的内容都应该在教学中涉及, 可以简化甚至忽略的内容为一些数学推导和某些不那么优秀的模型, 不可以忽略的是各种方法的直观意义及理念.
本书的适用范围很广, 其内容曾经在中国人民大学、首都经贸大学、中央财经大学、西南财经大学、云南财经大学, 四川大学、哈尔滨理工大学、新疆财经大学、中山大学、内蒙古科技大学、云南师范大学及大理大学讲授过, 对象包括数学、应用数学、金融数学、统计、精算、经济、旅游、环境等专业的本科生以及数学、应用数学、统计、计量经济学、生物医学、应用统计、经济学等专业的硕士和博士研究生. 作为成绩评定, 给每个学生分配若干网站上的实际数据, 并且要求他们在学期末将分析处理这些数据的结果形成报告. 这些数据如何处理, 没有标准答案, 甚至有些必要的方法还超出了授课的范围, 需要学生做进一步的探索和学习.
笔者认为, 这本书可以作为本科生的回归分析及分类课程的教科书, 应用统计硕士的知识应该包括本书的全部内容. 希望本书对于各个领域的教师以及实际工作者都有参考价值.
本书的排版是笔者通过LaTeX软件实现的.
在任何国家及任何制度下都能够生存和发展的知识和能力, 就是科学, 是人们在生命的历程中应该获得的.
初次翻开《应用回归及分类:基于R》,我就被它厚重的篇幅和严谨的排版所吸引。作为一名初涉数据科学领域的学习者,我常常在面对海量数据和纷繁复杂的模型时感到力不从心。这本书的出现,恰如一位经验丰富的引路人,为我拨开了迷雾。我特别欣赏作者在开篇部分对回归和分类概念的循序渐进的阐述,没有急于抛出晦涩的公式,而是从现实生活中的具体场景切入,例如预测房价、识别垃圾邮件等,这些生动形象的案例让抽象的统计学原理瞬间变得鲜活起来。 紧接着,书中对线性回归的深入剖析更是让我受益匪浅。作者不仅详细介绍了普通最小二乘法(OLS)的原理,还列举了如何在R语言中高效实现OLS回归,并对回归系数的解释、假设检验、置信区间等关键概念进行了详尽的讲解。我尤其喜欢书中关于模型诊断的章节,作者通过图示和实例,清晰地展示了如何识别异方差、多重共线性、自相关等问题,并提供了相应的解决方案。这一点对于我理解模型的局限性、避免“过拟合”或“欠拟合”至关重要。 在回归部分,本书还触及了岭回归和Lasso回归等正则化方法。虽然我之前对这些概念有所耳闻,但总是觉得它们有些神秘。然而,通过书中对这些方法的原理、适用场景以及在R中实现的代码示例,我茅塞顿开。特别是作者对Lasso回归在特征选择方面的独特优势的阐述,让我看到了如何构建更简洁、更具解释性的模型。这对于处理高维数据,特别是医学影像、基因组学等领域的数据,具有极高的实践价值。
评分《应用回归及分类:基于R》在介绍不同类型的回归模型时,非常注重模型之间的比较和选择。作者不仅详细讲解了线性回归、多项式回归、岭回归、Lasso回归等,还深入探讨了非线性回归模型,例如支持向量回归(SVR)和决策树回归。 我特别喜欢书中对不同回归模型适用场景的分析。例如,当数据呈现非线性关系时,作者会推荐使用多项式回归或SVR;当特征维度很高且存在共线性时,则会考虑使用岭回归或Lasso回归。这种“因地制宜”的模型选择建议,对我这样的初学者来说非常有指导意义,避免了盲目套用模型的错误。 此外,作者在讲解模型评估指标时,也非常细致。除了R-squared、Adjusted R-squared等,还介绍了MAE(Mean Absolute Error)、MSE(Mean Squared Error)和RMSE(Root Mean Squared Error)等,并分析了它们在不同情况下的优缺点。这让我能够更全面地理解模型的拟合程度和预测误差。
评分我对本书关于异常检测的章节感到非常满意。作者清晰地阐述了异常检测的目标和挑战,并介绍了多种常用的异常检测算法,例如基于统计的方法(如Z-score、IQR)、基于密度的方法(如LOF)以及基于模型的方法(如Isolation Forest)。我过去在处理数据时,常常会忽略掉一些潜在的异常点,而本书让我认识到异常检测在金融欺诈识别、网络安全监控等领域的关键作用。 书中对这些算法的R语言实现进行了详细的演示,并提供了如何选择和调整参数的建议。特别是在使用Isolation Forest进行异常检测时,作者通过直观的图示解释了该算法的原理,这让我能够更好地理解其工作机制。 此外,本书还触及了半监督学习在异常检测中的应用,这让我看到了如何在有限的标注数据情况下,依然能够有效地进行异常检测。这一点对于一些数据标注成本高昂的场景非常有价值。
评分当我翻到分类模型的章节时,我感受到了另一种层次的惊喜。逻辑回归作为分类模型的基础,书中对其的讲解既全面又透彻。从几率比的解释,到模型评估中的准确率、精确率、召回率、F1分数以及ROC曲线和AUC值,作者都给予了详尽的说明。我过去在理解这些评估指标时常常感到困惑,但通过书中大量的图例和R代码演示,我终于能够清晰地分辨它们各自的含义和应用场景,并知道如何根据不同的业务需求选择最合适的评估指标。 随后,书中对决策树和随机森林的介绍更是让我眼前一亮。作者并没有止步于基本的决策树构建,而是深入探讨了剪枝技术、多重决策树集成等高级概念。特别是随机森林算法,它如何通过构建多棵决策树并进行投票来提高预测的鲁棒性和准确性,这一机制在书中得到了非常清晰的阐释。我特别喜欢作者通过实际数据集演示如何使用R中的`rpart`和`randomForest`包来构建和评估这些模型,这让我能够立即将理论知识转化为实践操作。 支持向量机(SVM)是书中另一个让我印象深刻的部分。作者以生动的比喻解释了核函数的概念,以及它如何将低维数据映射到高维空间以实现线性可分。书中对于不同核函数(线性、多项式、径向基函数)的优缺点和适用场景的对比分析,让我对SVM的理解上升到了一个新的高度。而且,书中对SVM参数(如C和gamma)的调优也进行了详细的讲解,这对于获得最佳模型性能至关重要。
评分在阅读《应用回归及分类:基于R》的过程中,我发现作者在讲解模型的同时,非常注重实际操作的细节。例如,在介绍数据预处理时,书中详细讲解了如何处理缺失值、异常值,如何进行特征缩放和编码,以及如何进行特征工程。这些看似基础但至关重要的步骤,在实际建模过程中往往是决定成败的关键。本书通过大量R语言的代码示例,让我能够轻松地将这些概念应用到自己的数据集中。 我尤其欣赏本书对交叉验证的详细讲解。作者不仅解释了k折交叉验证的原理,还展示了如何在R中实现它,并强调了其在防止模型过拟合、评估模型泛化能力方面的重要性。这对于我在构建可靠的预测模型时,能够更准确地评估模型的性能,避免过度自信非常重要。 本书在模型性能评估方面也做得非常出色。除了常见的准确率、精确率、召回率等指标外,作者还深入介绍了PR曲线(Precision-Recall Curve)及其在类别不平衡数据集上的优势,以及卡方检验、t检验等用于比较模型性能的统计方法。这让我能够从更全面的角度去评价和选择最适合特定任务的模型。
评分《应用回归及分类:基于R》在处理时间序列数据进行回归和分类的应用方面,给我留下了深刻的印象。书中对ARIMA模型、SARIMA模型等经典时间序列模型的讲解,结合R语言的实现,让我在理解时间序列的自相关性和季节性方面有了新的认识。特别是在分析股票价格、销售预测等数据时,这些模型的应用显得尤为重要。 作者还引入了更现代的时间序列预测方法,例如使用机器学习模型(如LSTMs)来处理时间序列数据。书中对这些方法的理论基础和R语言的实现进行了详细介绍,这让我能够接触到最新的研究成果,并将其应用到实际问题中。 在分类模型方面,本书对多项逻辑回归和有序逻辑回归的讲解也让我大开眼界。这两种模型对于处理具有多个类别响应变量的数据非常有用,作者通过实际案例展示了如何构建和解释这些模型,这对于我在进行市场细分、用户行为预测等任务时提供了宝贵的指导。
评分本书在模型部署和生产化方面的讨论,虽然篇幅不长,但却非常实用。作者简要地介绍了如何将训练好的模型导出,并与其他系统进行集成,例如通过API的方式。虽然本书的重点在于模型的理论和实现,但这种对实际应用落地性的考量,让我看到了作者的周全。 我对书中关于模型监控和再训练的初步探讨也印象深刻。作者提及了在模型部署后,需要定期监控其性能,并根据数据分布的变化进行再训练。这一点对于确保模型的长期有效性至关重要,尤其是在数据动态变化的业务场景中。 虽然本书并非一本关于软件工程的书籍,但其包含的这些关于模型部署的初步内容,为我打开了另一扇窗,让我认识到构建一个完整的机器学习解决方案,不仅仅是模型训练那么简单,还需要考虑模型如何投入实际使用。
评分《应用回归及分类:基于R》在涉及贝叶斯回归和分类方法时,提供了非常清晰的入门指导。作者并非一味地抛出复杂的数学公式,而是从贝叶斯定理的基本原理出发,逐步引入马尔可夫链蒙特卡洛(MCMC)等抽样方法。 我过去对贝叶斯方法的理解较为模糊,总觉得它比频率派方法更为抽象。然而,通过书中对贝叶斯回归模型(如贝叶斯线性回归)的讲解,我开始理解其如何通过后验分布来表达参数的不确定性,以及如何进行模型推断。 本书还介绍了贝叶斯分类模型,例如贝叶斯逻辑回归。作者通过R语言的代码示例,演示了如何使用`rjags`或`rstan`等包来实现贝叶斯模型。这让我看到了如何利用贝叶斯方法来构建具有概率解释的模型,这在一些需要量化不确定性的领域(如风险评估)具有重要意义。
评分本书在处理文本数据进行分类时,所提供的思路和方法让我受益匪浅。作者介绍了如何对文本数据进行预处理,包括分词、去除停用词、词干提取等,以及如何将文本转换为数值型特征,例如TF-IDF(Term Frequency-Inverse Document Frequency)和词向量(Word Embeddings)。 我过去在处理文本分类任务时,常常在特征提取阶段遇到瓶颈。然而,本书通过对TF-IDF的详细解释和R语言的实现,让我能够有效地量化文本的词语重要性。而且,作者还简要介绍了词向量的概念,为我打开了探索更先进文本表示方法的大门。 在分类模型方面,本书也结合文本数据,演示了如何使用逻辑回归、朴素贝叶斯、支持向量机等模型进行文本分类。特别是在使用朴素贝叶斯模型进行垃圾邮件分类的案例,让我对该算法有了更直观的理解。
评分从本书对广义线性模型(GLM)的详尽阐述中,我获得了前所未有的启发。作者不仅清晰地解释了GLM如何将响应变量的分布与线性预测器联系起来,还重点介绍了泊松回归和负二项回归等模型,这对于分析计数型数据(如疾病发病率、网站点击次数)至关重要。我过去在处理这类数据时常常感到无从下手,而本书提供的R代码示例和模型解释,让我能够信心满满地应对这些挑战。 书中对混淆矩阵和多类分类问题的处理方式也让我受益匪浅。作者通过构建详细的混淆矩阵,帮助我理解不同类别的预测错误情况,并进一步探讨了如何使用宏平均和微平均来综合评估多类分类模型的性能。这对于构建能够准确识别多种不同类别(如商品推荐、图像识别)的系统非常有帮助。 另外,本书在模型解释性和可解释性方面的关注也让我非常赞赏。在介绍复杂的模型的同时,作者也强调了理解模型决策过程的重要性。例如,在讨论决策树时,作者通过可视化输出来展示特征的重要性,这使得我们能够理解模型是如何做出预测的。这种对模型“黑箱”问题的深入探讨,对于在实际应用中建立信任和进行决策至关重要。
评分书是正版,一直在京东上面买东西,虽然还os是蛮贵的,,但不错,,一分钱一分货。。
评分写得有点太简单了,就当拿来参考参考吧,有基础的就没必要买了,,,
评分给老婆买的,只能说质量不错,内容还没看!!!!
评分好书。。。。。。。。。。。。
评分正版!质量好,内容好!!
评分例子很多,内容很详实。不错的书。
评分京东快递就是好,速度快,服务态度也很好。
评分物流超迅速,书很棒
评分R是基于R 语言的一种优秀的免费统计软件, 它不仅提供了丰富的数据分析技术, 功能十分强大, 而且与多数统计软件相比, R 的更新速度快, 使用更灵活, 可以包含很多最新方法的实现方案, 它的绘图功能是任何其他统计软件都无法比拟的. 同时, 读者自己开发的一些新的统计模型, 也可以很方便地通过在R 中编程实现模型的求解.由于其功能强大和使用灵活, R 在实际工作和科学研究的很多领域被越来越多的人使用. 可以说, R 将逐渐成为数据分析软件的主流.
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有