人类学、社会学、经济学、政治学、心理学等学科常常需要用到多元回归分析,通过此方法来研究变量之间的关系。广义线性模型是回归模型的一个延伸,是处理定量赫尔定性的变量分析。多元回归分析涵盖了所有线性模型的数据分析系统,包括处理连续变量的分析模型、处理分类变量的模型以及同时处理前两者的模型。回归模型在处理不同类型的预测变量时非常灵活,因此多元广义线性模型在很多学科领域都得到了广泛的运用。
《多元广义线性模型》介绍了广义线性模型的多元形式,并展示了多元广义线性模型的几种应用。首先,作者回顾了一元回归分析,然后介绍了一些示例样本数据,并对广义线性模型分析的模型识别进行了讨论,在此基础上,作者探讨了模型参数估计、模型拟合优度的评价及相应的多元检验统计量,以及对模型的假设检验,最后介绍了多元方法分析的线性模型解决方法和典型相关分析。
理查德?F.哈斯(Richard F. Haase),美国纽约州立大学奥尔巴尼分校教育学院心理咨询部荣誉教授、研究教授,以及公共卫生学院健康与环境研究所的研究员。先后在马萨诸塞大学阿默斯特分校、得州理工大学和纽约州立大学奥尔巴尼分校教授研究方法、统计学和数据分析。研究兴趣集中在研究方法、一元和多元统计学。
一元广义线性模型的简介与回顾
一元线性模型分析回顾
识别一元回归模型
模型的参数估计
证实最小二乘估计的有效性所需要的假设
分解平方和以及定义拟合优度的测量
全模型、限制模型以及半偏相关系数的平方
回归系数和判定系数的假设检验
广义线性假设检验
模型整体假设 β_1= β_2= β_3=0 和 ρ_(Y?X_1 X_2 X_3)^2 的检验
用广义线性检验方法评估X1, X2和 X3 的单独贡献
用广义线性检验检验更为复杂的假设
从一元到多元广义线性模型的一般化
多元广义线性模型的结构识别
模型的数学识别
定义预测变量和标准变量的实质作用
示例数据和模型识别
广义多元线性模型的参数估计
例1:性格特征与成功的工作申请
用标准得分的形式估计多元线性模型中的参数
例2:多氯联苯——心血管疾病的风险因素:认知功能数据
对多元线性模型分析的电脑程序的一个说明
本章小结与回顾
多元SSCP分解、关联强度的测量和检验统计量
在多元广义线性模型中SSCP的分解
例1:性格与工作申请
例2:PCB 数据
SSCP 矩阵的进一步分解:全模型、限制模型以及定义Q_H
一些关联强度的多元测度的概念定义
一个不对称的R^2的多元测度——Hooper迹相关系数平方
例子:性格数据和PCB数据中Hooper’s r ?^2
一元和多元R^2之间的关系和它们的检验统计量
Pillai迹 V和相应的关联强度测度R_V^2
Wilks’ Λ 及其关联强度测度
Hotelling迹 Τ及其关联强度测度R_Τ^2
Roy最大特征根及其关联强度度量r_(C_max)^2
通过一元回归模型建立Pillai迹V和Wilks’Λ
多元广义线性模型中的假设检验
多元广义线性检验
多元检验统计量及其近似F检验
对Pillai迹V的近似F检验
Wilks’Λ的近似F检验
Hotelling迹Τ的近似F检验
Roy最大特征根θ的近似F检验
对一个或一组预测变量的广义线性检验
对一个预测变量的多元假设检验:性格数据
一个预测变量的多元假设检验:PCB数据
一组预测变量的多元假设检验和其他复杂假设
检验其他的复杂的多元假设
适用于所有多元线性模型分析的假设
编码设计矩阵和方差模型的多元分析
变量和向量的差异
用编码向量来表示一个分类变量
通过广义线性检验来检验MANOVA 假设
分解SSCP矩阵和MANOVA里的假设检验
身材估计数据的单项MANOVA
更高阶的MANOVA设计:对身材估计数据的一个2 x 3阶MANOVA
关于MANOVA分析假设的备注
多元线性模型的特征值求解:典型相关系数和多元检验统计量
典型相关系数的概念定义
2 x 2相关系数矩阵的特征值
R_((2x2) )的特征向量
R_YY^(-1) R_YX R_XX^(-1) R_XY的特征值
特征值、典型相关系数的平方和四个多元检验统计量
R_YY^(-1) R_YX R_XX^(-1) R_XY的典型相关系数的平方的特征向量
检验典型相关系数和典型系数上的进一步假设
注释
参考文献
译名对照表
在这些数据中,我们无法拒绝AxB 交互作用的H_0。我们没有足够的证据说明性别差异在三个地理聚类分组中不保持恒定。在有交互作用时和没有交互作用时分别应该如何处理是一个很复杂的问题。目前针对于这个问题还没有达成一个共识。很多作者 (例如, Muller & Fetterman, 2002, 第14章) 建议在复杂的ANOVA模型中,应该先检验并解释交互作用,然后再讨论因素的主要作用。如果交互作用显著,我们应该忽略因素的主要作用。而且模型解释应该主要针对交互作用。同时应该对潜在交互的简单主要作用做进一步调查。相反,如果交互作用不显著,我们可以把交互作用从模型中移除。然后对因素的主要作用进行重新估计和解释。
复杂的ANOVA设计中还有一个难点就是设计单元的不平衡,也就是每个单元中的样本数量不相等。我们这里用的2 x 3的例子 就是这种情况。单元样本量不相等会引起因素主要作用间存在相关性。这样我们模型中的因素就不再相互正交,从而导致因素的作用也不再像在平衡设计条件下相互独立。我们可以采取以下几种方法来解决这个问题,包括 (1)每个作用进行调整后再检验因素A,因素B和AxB 的交互作用。具体的调整方式是对模型中其他的主要作用和交互作用进行调整——这就是第三类平方和解法,该解法是对未加权均值进行检验,我们已经在这个2 x 3的例子中使用过。第三类解法中每个作用都对其他作用进行调整。 (2) 对模型中的主要作用调整(而不对任何高阶项例如AxB的交互做出调整)后,检验主要作用(因素A或者因素B)——这是第二类平方和解法,该方法基于加权平均值,并对单元样本量不相等做出了调整。 (3) 检验第一个主要作用,比方说因素A,但不对其余模型作用做出调整。然后对因素A调整后再检验下一个主要作用,比方说因素B。接着,对因素A和B都调整后再检验 AxB的交互作用。这个想法是按顺序对模型中的因素做出调整。每个作用都对前面已经检验过的作用做出调整—— 这是第一类平方和解法。该方法需要一个理由或者理论来决定选择检验顺序。我们还有第四种解法,该方法适用于在一个或多个单元为空的情况。但不被大部分作者所推荐。关于这四种非正交设计的解法之间区别的详细讨论请参阅Green et al. (1999)和 Maxwell and Delaney (2004, 第7章)。大部分多元线性模型分析的统计软件都默认设置为第三类解法。但如果有必要,用户可以选择结果用其他解法输出。如果第三种解法的结果由于单元样本容量的极度不平衡而值得怀疑,第二类解法是最有用的替代选择。在身材估计数据(表格6.12)的2 x 3 MANOVA 中,因素A和B的第二类分析需要对比向量L_A和 L_B。这两个向量的建立是为了根据设计中六个单元不相等的n_ab ,来提供一种加权平均。 具体依据不想的单元样本量,对对比向量加权来获得第二类平方和的解的方法请参阅 Littell, Stroup and Freund (2002, pp. 198-201)。尽管我们不在这里展示这个分析,对身材数据的第二类SSCP分析将得到与基于表格6.12中总结的检验相同的结论。大部分用于MANOVA的电脑软件在估计任意因素模型的参数时,都是用广义逆完成。而且输出结果的形式是依照我们前面章节中讨论的参考单元编码设计矩阵。用户可以对任何问题选择自己偏爱的分析方法(也就是SSCP矩阵的第一类到第四类分解方法)。
在社会科学、行为科学以及自然科学中,很少有数据分析技术比多元回归分析更为重要。在各个领域,包括人类学(Cardoso & Garcia, 2009)、经济学(Card, Dobkin & Maestas, 2009)、政治学 (Baek, 2009)、社会学(Arthur, Van Buren & Del Campo, 2009),以及心理学的各个分支(Ellis, MacDonald, Lincoln, & Cabral, 2008; Pekrun, Elliot, & Maier, 2009)中, 都可见多元回归分析的示范性应用。
在以上每个领域中,研究者的目的是研究变量之间的关系。用数据拟合回归模型可以使分析者能够用一个或多个预测变量来解释一个因变量内的变化。广义线性模型是回归模型的一个延伸,用来处理定量和定性的变量分析。 众所周知,多元回归分析是一个涵盖所有线性模型的数据分析系统 (Cohen, 1968), 包括了处理连续变量的分析模型(经典回归分析)、处理分类变量的模型(经典方差分析),以及同时处理连续和分类预测变量的模型。
这些模型共同定义了广义线性模型。回归模型在处理许多不同类型的预测变量方面是非常灵活的,包括连续变量的交互作用,分类变量的交互作用,以及连续和分类变量的交互作用。 这些组合提供了在更广泛的范围内进行分析的可能性,这解释了为什么这项技术在所有科学领域内,包括从人类学到动物学,都有如此广泛的运用。
本书的目的是介绍广义线性模型的多元形式,以及展示它的几种应用。多元模型的特点是具有不止一个因变量,通过拟合一个模型来同时分析这些变量。很多多元线性模型分析的概念和统计学基础是对一元回归分析的直接推广,我们将在本章中简单回顾一元回归分析,来为之后的章节做铺垫。第二章中,我们介绍了会一直用到的示例样本数据,并对广义线性模型(GLM) 分析中的第一步--模型识别--进行讨论。第三、四、五章的内容涉及到了模型参数的估计,模型拟合优度的评价及相应的多元检验统计量, 以及对模型的假设检验。第六章介绍了多元方差分析的线性模型解决方法, 第七章用对典型相关分析的介绍来结束本书。典型相关分析涵盖了之前章节介绍过的所有线性模型。本文最重要的目的是从一个整合的视角把所有不同的技术用一个模型框架展现出来。
坦白说,这本书的深度无疑是面向那些希望从“使用者”蜕变为“构建者”的统计爱好者或从业者的。它涵盖的内容广度,远超我的预期,那种“广义”二字的份量,在后续章节中体现得淋漓尽致。虽然我尚未深入到介绍的那些更前沿的贝叶斯方法或混合效应模型的交叉应用部分,但仅就其对核心理论的构建,就已经让我对传统统计学的理解提升到了一个新的层次。它教会我的,不是如何快速得到一个拟合优度R方最高的模型,而是如何根据数据的内在结构,去选择一个最能诚实反映世界真实情况的数学框架。这本书最大的价值在于,它塑造了一种批判性的建模思维:永远质疑你的默认假设,永远去探索数据背后的真正生成机制。读完前面的章节,我感觉自己像是刚学会了基础的加减乘除,但已经看到了微积分的大门在向我招手,这是一种令人兴奋的知识饥渴感。我期待着完全掌握书中的内容后,能去解决那些之前束手无策的复杂建模问题。
评分从排版和装帧来看,这本书显然是经过了精心打磨的。字体选择非常适中,既保证了阅读的舒适度,又不会让人觉得过于轻松随便。图表的运用恰到好处,它们不是简单的插图,而是作为论证链条中不可或缺的一环。例如,在解释广义线性模型(GLM)的核心——链接函数(Link Function)时,书中通过几张示意图清晰地展示了,为什么Logit链接函数能够完美地将概率(0到1之间)映射到整个实数轴上,并维持了响应变量的单调性。这种视觉化的解释,比冗长的数学推导要高效得多。而且,全书的逻辑结构安排得非常流畅,从基础的概率模型回顾,到指数族的引入,再到各种特定分布的推广应用,层层递进,如同搭积木一般,确保读者每一步都站稳脚跟,才能迎接下一步的挑战。对于需要经常查阅和回顾的读者来说,书中的章节划分和索引设计也显得非常专业和实用。
评分阅读过程中,我发现作者在讲解方法论的演进时,展现出一种近乎哲学的思辨深度。他没有简单地罗列各种模型,比如泊松回归、负二项回归,然后给出公式。相反,他花了大篇幅去探讨“为什么”我们需要这些模型。那种对概率分布特性的深入剖析,比如指数家族(Exponential Family)的概念,被阐释得非常清晰,仿佛作者在用最日常的语言,解构那些看似高高在上的数学结构。我记得有一次,我尝试用一个非常基础的多元回归模型去拟合一个关于用户停留时间的日志数据,结果拟合效果惨不忍睹,残差图像一团乱麻。当时我还不明白问题出在哪里,直到读到关于方差与均值关系(Mean-Variance Relationship)的章节,醍醐灌顶!作者用了一种非常精妙的比喻,将方差的“失控”比作是引擎的过度点火,瞬间就让我明白了为什么我的模型会如此不稳定。这种不仅仅是“教会你如何做”,更是“让你理解为什么这样做是正确的”的教学态度,是这本书最宝贵的财富。它不是一本“食谱”,而是一本让你成为“大厨”的指南。
评分这本书的实战操作部分,设计得极其人性化,这一点对于很多希望将理论迅速落地到工作中的读者来说,简直是福音。它不是那种只停留在理论层面的高谈阔论,而是非常细致地结合了当前主流的统计软件包(虽然我没有看到具体的代码示例,但文字描述的流程感非常强)。作者对模型选择的讨论,尤为精彩。他没有简单地推荐AIC或BIC,而是深入比较了在不同样本量和模型复杂性下,这些信息准则的优劣,甚至提到了模型收敛性的重要性。我尤其欣赏他对“模型诊断”环节的重视,这往往是许多初级教材会忽略的“黑箱”部分。书中强调了对残差的结构化分析,不仅仅是看独立性和同方差性,更是要探究残差是否服从预期的分布形态。这使得读者在建立模型后,不再是盲目地相信输出结果,而是学会了像侦探一样去审视模型的每一个角落,确保模型的可靠性和解释力的有效性。这种严谨的流程,让人在应用时信心倍增。
评分这本书的封面设计得非常有品味,简约而不失深度,那种沉稳的蓝色调一下子就抓住了我的眼球,让人一看就知道这不是一本浮于表面的畅销书,而是需要坐下来静下心来啃的硬核之作。我原本对这个领域只有一些零散的概念性了解,比如知道回归分析是核心,但对于如何处理那些不那么“乖巧”的数据分布——比如计数数据、比例数据——总是感到迷茫。我翻阅了好几本市面上的统计教材,它们要么过于侧重理论推导而显得晦涩难懂,要么就是过于工具化,只教你点击菜单,却不告诉你背后的原理。这本书的开篇介绍,虽然没有直接点出那些复杂模型的名字,但它非常巧妙地用一系列实际生活中的例子,比如产品转化率的波动、疾病发病率的统计等,构建了一个直观的理解框架:标准线性模型在面对非正态残差时是多么的脆弱。它成功地激发了我探索“超越OLS”的强烈欲望,感觉自己仿佛被一位经验丰富的老教授领进了一个充满挑战但又无比迷人的知识迷宫的入口,让人迫不及待想知道接下来要如何拨开迷雾,真正掌握处理复杂数据分布的“武器”。这种从实际痛点出发的叙事方式,极大地降低了初学者的心理门槛,而不是上来就抛出一堆希腊字母。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有