白话统计

白话统计 pdf epub mobi txt 电子书 下载 2025

冯国双 著
图书标签:
  • 统计学
  • 白话
  • 入门
  • 数据分析
  • 概率论
  • 统计方法
  • 通俗易懂
  • 实用
  • 学习
  • 科普
想要找书就要到 静思书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 今古传奇图书专营店
出版社: 电子工业出版社
ISBN:9787121335181
商品编码:28669454638
包装:平装-胶订
出版时间:2018-01-01

具体描述

基本信息

书名:白话统计

定价:69.00元

售价:48.3元,便宜20.7元,折扣70

作者:冯国双

出版社:电子工业出版社

出版日期:2018-01-01

ISBN:9787121335181

字数

页码

版次:1

装帧:平装-胶订

开本:16开

商品重量:0.4kg

编辑推荐

一本能让人看明白的“白话”统计书 ,一本提供数据分析思路而非公式的统计书

行家张文彤博士带头点赞

涉及Excel、SPSS、R、SAS、JMP等常用工具软件

冯国双博士另著有《小白学SAS一书》


内容提要

一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。《白话统计》凝结了作者十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,本书同时提供了如何实现结果的软件(涉及Excel、SAS、R、JMP、SPSS 等)操作。

目录

目 录
第 1 篇 基础篇
章 为什么要学统计 2
1.1 统计学有什么用 3
1.2 生活世事皆统计 4
1.3 如何学统计 4

第 2 章 变异——统计学存在的基础 6
2.1 与变异 6
2.2 特朗普与罗斯福的胜出——抽样调查到底可不可靠 8
2.3 什么是抽样误差 9

第 3 章 郭靖的内力能支撑多久——谈概率分布 11
3.1 累积分布与概率密度的通俗理解 12
3.2 是生存还是死亡?这是一个问题——用Weibull 分布寻找生存规律 16
3.3 2003 年的那场SARS——用Logistic 分布探索疾病流行规律 20
3.4 “普通”的正态分布 23
3.5 几个常用分布——t 分布、χ2 分布、F 分布 28

第 4 章 关于统计资料类型的思考 35
4.1 计数资料等于分类资料吗 36
4.2 计数资料可否采用连续资料的方法进行分析 37
4.3 分类资料中的无序和有序是如何确定的 38
4.4 连续资料什么时候需要转换为分类资料 39
4.5 连续资料如何分组——寻找cut-off 值的多种方法 41
4.6 什么是虚拟变量/哑变量 47

第 5 章 如何正确展示你的数据 52
5.1 均数和中位数——你被平均了吗 53
5.2 方差与标准差——变异的度量 54
5.3 自由度——你有多少自由活动的范围 56
5.4 百分位数——利用百分数度量相对位置 57
5.5 如何比较苹果和橘子——利用Z 值度量相对位置 59
5.6 某百岁老人调查报告说:少运动才能活得久——谈一下比例和率 61
5.7 在文章中如何正确展示百分比 63

第 6 章 寻找失踪的运动员——中心极限定理 64
6.1 中心极限定理针对的是样本统计量而非原始数据 65
6.2 样本量大于30 就可以认为是正态分布了吗 67

第 7 章 从“女士品茶”中领会假设检验的思想 70
7.1 女士品茶的故事 70
7.2 零假设和备择假设 . 72
7.3 假设检验中的两类错误 73
7.4 P 值的含义 76
7.5 为什么P 值小于0.05(而不是0.02)才算有统计学意义 78
7.6 为什么零假设要设定两组相等而不是两组不等 79

第 8 章 参数估计——一叶落而知秋 81
8.1 点估计 .81
8.2 小二乘估计 82
8.3 大似然估计 84
8.4 贝叶斯估计 86

第 9 章 置信区间估计——给估计留点余地 88
9.1 置信区间的理论与实际含义 88
9.2 置信区间与P 值的关系 90
9.3 利用标准误计算置信区间 91
9.4 利用Bootstrap 法估计置信区间 . 92

第 2 篇 实用篇
0 章 常用统计方法大串讲 98
10.1 一般线性模型——方差分析与线性回归的统一 99
10.2 广义线性模型——线性回归与Logistic 回归的统一 103
10.3 广义可加模型——脱离“线性”束缚 107
10.4 多水平模型——打破“独立”条件 112
10.5 结构方程模型——从单因单果到多因多果 119

第 11 章 正态性与方差齐性 .127
11.1 用统计检验方法判断正态性 127
11.2 用描述的方法判断正态性 130
11.3 方差分析中的方差齐性判断 .133
11.4 理解线性回归中的方差齐性 135

第 12 章 t 检验——不仅是两组比较 .138
12.1 从另一个角度来理解t 检验 138
12.2 如何正确应用t 检验 140
12.3 t 检验用于回归系数的检验 141
12.4 t 检验的替代——Wilcoxon 秩和检验 142

第 13 章 方差分析与变异分解 145
13.1 方差分析中变异分解的思想 145
13.2 为什么回归分析中也有方差分析 147
13.3 铁打的方差分析,流水的实验设计 148
13.4 方差分析后为什么要进行两两比较 152
13.5 多重比较方法的选择建议 154
13.6 所有的多组都需要做两两比较吗——兼谈固定效应和效应 164
13.7 重复测量方差分析详解 166
13.8 方差分析的替代——Kruskal-Wallis 秩和检验 176
13.9 多组秩和检验后的两两比较方法 178

第 14 章 卡方检验——有“卡”未必走遍天下 181
14.1 卡方检验用于分类资料组间比较的思想 181
14.2 卡方用于拟合优度评价——从Hardy-Weinberg 定律谈起 184
14.3 似然比χ2、M-H χ2、校正χ2 与Fisher 检验 186
14.4 等级资料到底可不可以用卡方检验 191
14.5 卡方检验的两两比较 193
14.6 Cochran-Armitage 趋势检验 194
14.7 分类变量的赋值是如何影响分析结果的 196

第 15 章 相关分析与一致性检验 200
15.1 从协方差到线性相关系数 200
15.2 线性相关系数及其置信区间 203
15.3 如何比较两个线性相关系数有无差异 206
15.4 分类资料的相关系数 207
15.5 基于秩次的相关系数 210
15.6 相关分析中的几个陷阱 213
15.7 用ICC 和CCC 指标判断一致性 215
15.8 用Bland-Altman 图判断一致性 218
15.9 Kappa 检验在一致性分析中的应用 219

第 16 章 线性回归及其分析思路 .222
16.1 残差——识别回归模型好坏的关键 223
16.2 回归系数的正确理解 226
16.3 回归系数检验VS 模型检验 227
16.4 均值的置信区间VS 个体的预测区间 228
16.5 逐步回归筛选变量到底可不可靠——谈变量筛选策略 230
16.6 如何评价模型是好还是坏——交叉验证思路 237
16.7 线性回归的应用条件——你的数据能用线性回归吗 240
16.8 如何处理非正态——Box-Cox 变换 247
16.9 如何处理非线性——Box-Tidwell 变换 248
16.10 方差不齐怎么办——加权小二乘法 250
16.11 当共线性导致结果异常时怎么办——岭回归、Lasso 回归 .254
16.12 发现异常值应该删除吗——谈几种处理异常值的方法 .260
16.13 如何处理缺失值——是删除还是填补 268
16.14 一个非教材的非典型案例——线性回归的综合分析 276

作者介绍

冯国双,北京大学医学部博士,具有十多年的数据统计分析经验,知名统计学平台“小白学统计”的创始者与维护者。已主编多部统计学专著,出版《小白学SAS》,同时兼任多个与统计有关的学术委员会委员。兴趣爱好:在热爱统计分析之余,还对古玩奇石、盆景制作和诗词鉴赏略有心得。

文摘


序言



剖析数据背后的逻辑:一部关于严谨推断与实用模型的深度指南 书籍名称:概率之径:从基础公理到复杂模型的理性构建 简介: 《概率之径:从基础公理到复杂模型的理性构建》是一部深入探讨现代统计学和数据科学核心理论与实践的专业著作。本书旨在为读者构建一个坚实而全面的统计思维框架,超越了简单工具的使用,聚焦于数据背后的推断逻辑、模型假设的合理性检验以及在不确定性下做出最优决策的科学方法。全书结构严谨,内容涵盖了从最基础的测度论和概率公理,到前沿的非参数统计和贝叶斯推断的深层原理。 第一部分:奠基——概率的严密世界与随机变量的本质 本部分着重于建立坚不可摧的数学基础。我们首先详细阐述了概率论的公理化基础,特别是如何从集合论的角度理解事件空间和概率测度。这并非枯燥的数学堆砌,而是为了让读者深刻理解“随机性”在数学上的精确定义,为后续的推断过程打下理论钢印。 随后,本书深入探讨了随机变量的分类、期望与方差的精确定义及其性质。我们详细剖析了连续型与离散型随机变量的密度函数与分布函数,并通过大量的实例展示了矩母函数和特征函数在识别分布特性中的关键作用。特别地,我们花费大量篇幅解析了中心极限定理(CLT)的深刻内涵及其局限性,阐明了为何大数定律和中心极限定理是统计推断的支柱,同时也指出了在实际数据集中,何时这些渐近理论可能失效,需要更精细的模型处理。 第二部分:推断的艺术——参数估计与假设检验的量化哲学 这是本书的核心篇章,聚焦于如何从有限的样本信息中对未知参数进行可靠的估计和检验。我们系统性地介绍了点估计的优良性质:无偏性、一致性、有效性和渐近正态性。随后,我们深入探讨了最大似然估计(MLE)的推导过程、渐近性质,以及在处理复杂模型时如何应用信息矩阵和Wald检验。 在区间估计部分,我们不仅停留在构建置信区间的操作层面,更重要的是解析了置信区间背后的概率解释和哲学含义——即长期频率的保证,而非单次估计的确定性。 假设检验部分,本书采取了更为审慎的态度。我们详细区分了P值、显著性水平与实际犯错风险之间的微妙关系。针对经典的Neyman-Pearson框架,我们详细推导了功效函数(Power Function)的构建,并强调了第一类错误(Type I Error)与第二类错误(Type II Error)的权衡。为应对现代数据科学中常见的“多重检验”问题,本书专门引入了FDR(错误发现率)控制的最新方法,如Benjamini-Hochberg程序,确保推断结果的稳健性。 第三部分:线性模型的深度剖析与拓展 本部分将统计理论应用于最常见且基础的建模框架——线性模型。我们不仅详细阐述了普通最小二乘法(OLS)的几何意义和代数推导,更着重于对高斯-马尔可夫定理的严格证明,明确了OLS估计量在满足特定假设下的最佳线性无偏估计(BLUE)地位。 随后,本书进入对模型诊断的精细化处理。我们系统梳理了多重共线性、异方差性和自相关性的识别方法(如VIF、Breusch-Pagan检验、Durbin-Watson检验),并针对性地介绍了加权最小二乘法(WLS)和广义最小二乘法(GLS)等修正方法。 在此基础上,我们对更复杂的线性模型进行了深入探索,包括方差分量分析(ANOVA)的理论基础,以及协方差分析(ANCOVA)中如何有效剥离协变量的影响。对于时间序列数据,我们介绍了ARIMA模型的结构,并强调了平稳性检验(如ADF检验)在模型建立中的不可或缺性。 第四部分:超越正态分布——广义线性模型与非参数统计的疆界 随着数据类型的日益多样化,线性模型(依赖于误差项正态性假设)的局限性愈发明显。本书的后半部分致力于拓展读者的建模视野。 我们对广义线性模型(GLM)进行了透彻的讲解,包括指数族分布的统一框架、链接函数的选择逻辑以及最大似然估计在GLM中的应用。针对常见的计数数据和二元响应数据,我们详细推导了泊松回归和逻辑斯谛回归的原理、参数解释(如优势比/发生比)和模型拟合优度检验(如Deviance)。 针对那些无法用标准参数模型良好拟合的数据,本书引入了非参数统计的工具箱。我们探讨了秩检验(如Wilcoxon秩和检验、Kruskal-Wallis检验)的统计功效与适用场景,并详细介绍了核密度估计(KDE)的原理和带宽选择的准则。 第五部分:贝叶斯思维与现代推断范式 本书的收官部分,引领读者进入以概率为中心的现代推断范式——贝叶斯统计。我们清晰地界定了先验信息、似然函数与后验分布之间的关系,并详细阐述了贝叶斯定理在参数估计中的应用。 我们着重介绍了马尔可夫链蒙特卡洛(MCMC)方法,特别是Metropolis-Hastings算法和Gibbs采样的机制和收敛诊断(如Gelman-Rubin统计量)。本书强调了贝叶斯方法在处理小样本、复杂结构模型(如分层模型)和知识融合方面的独特优势,并引导读者理解如何从后验分布中提取可解释的概率性结论,而非单一的点估计值。 总结: 《概率之径》不仅仅是一本传授统计公式的书籍,更是一部关于如何像统计学家一样思考的指南。它要求读者理解每一个假设背后的代价,掌握从数据中提取可靠洞察所需的数学严谨性,从而在面对现实世界中层出不穷的复杂数据挑战时,能够构建出既具理论深度又富于实用价值的理性决策框架。本书适合具备微积分和线性代数基础的高级本科生、研究生以及寻求深化统计学基础的从业人员。

用户评价

评分

这本书在结构上的设计也体现了作者的匠心独运。它不是按照传统统计教材那种“描述性统计先行,推断性统计收尾”的刻板流程走的,而是更注重知识点的内在联系和实际应用场景的串联。我特别欣赏它对“数据思维”的强调,而不是仅仅停留在计算层面。比如,在讲到回归分析时,它没有急于展示复杂的最小二乘法推导,而是先花了大篇幅讨论如何正确地提出一个可以被量化的研究问题,以及如何识别和避免常见的混淆变量。这让我意识到,统计学真正的价值在于指导我们如何更科学地观察世界,而不是单纯地跑出一个数字。书中的章节安排很自然,从基础的数据清洗和可视化,到逐步深入到更高级的模型构建和评估,每一步都衔绕紧密,读起来一气呵成,不会产生“知识断层”的困惑。它更像是一份精心制作的“探险地图”,指引着读者一步步揭开数据背后的秘密,而不是一堆零散的工具说明书。

评分

这本书的叙述风格简直是教科书界的清流!它完全没有那种冷冰冰的理论堆砌感,而是像一个经验丰富的老教授,慢条斯理地在你耳边讲解那些曾经让你头疼的统计概念。我记得我以前翻阅其他统计书籍时,常常被那些密密麻麻的公式和符号搞得晕头转向,感觉自己像在啃一块硬邦邦的石头。但是读了这本,那种感觉彻底消失了。作者似乎深谙普通读者的“痛点”,总能在关键的地方插入一些生活化的例子,比如用掷骰子来解释概率分布,或者用市场调查的数据来阐述假设检验的逻辑。尤其是对P值的解释部分,我以前一直把它理解得非常模糊,但这本书里通过一个非常形象的场景,让我瞬间茅塞顿开。它不是简单地告诉你“P值小于0.05就拒绝原假设”,而是告诉你为什么这么做,背后的思维逻辑是什么。这种深入浅出的讲解,让统计学不再是一门高不可攀的学科,而变成了一门可以被掌握的实用工具。对我这种非专业背景的人来说,这简直是福音,感觉自己终于可以和那些“统计精英”进行正常的对话了。

评分

不得不提的是,这本书的排版和视觉呈现非常出色,极大地提升了阅读体验。要知道,统计类的书籍,内容本身已经够烧脑了,如果再配上那种黑白灰、密密麻麻的小字,那简直是双重折磨。然而,这本书在图表的运用上非常大胆和有效。它没有滥用那些花哨的、与内容无关的装饰性图片,而是每一个图表都紧密服务于理论的阐述。例如,在解释方差分析(ANOVA)时,它使用的图形不仅清晰地展示了组间差异和组内波动,而且通过不同的颜色和标记,让人一眼就能抓住核心要点。很多地方的留白处理得恰到好处,让读者的大脑有时间去消化刚刚学到的概念,而不是被信息流快速地冲刷过去。这种对用户体验的关注,让我想起那些顶级的科技产品设计,它们深知“形式服务于功能”的道理。对于我这种需要反复查阅和回顾的读者来说,清晰的结构和直观的图示是保证学习效率的关键,这本书在这方面做得无可挑剔。

评分

与我之前读过的几本经典的统计教材相比,这本书的语言风格简直是反其道而行之,却达到了更好的效果。那些经典教材往往追求严谨的数学语言,每一个词语都必须精确到小数点后多少位,这固然专业,但也设置了极高的门槛。而这本书的作者似乎抱着一种“我就是要让你明白”的真诚态度在写作。他的语气非常亲切,时常会使用一些反问句或者带有幽默感的比喻来引导读者的思路,让整个阅读过程像是一场轻松愉快的智力对话,而不是一场紧张的考试。比如,在解释中心极限定理时,他没有直接扔出那个复杂的数学公式,而是先描绘了一个人们在面对随机事件时心理预期的变化过程,然后自然而然地引出了那个定理的必然性。这种“讲故事”的能力,是很多技术类书籍所欠缺的,也正因为如此,我才能在短时间内建立起对统计学概念的直觉性理解,这是任何公式推导都难以替代的。

评分

这本书最让我感到惊喜的是它对于统计伦理和局限性的讨论。很多同类书籍往往只是一味地推崇统计方法的强大和精确性,仿佛只要用了正确的统计方法,就能得出绝对真理。但这本书却用非常审慎的态度,提醒读者,统计学永远是基于不完全信息的推断,它有着内在的局限性,并且很容易被不当使用。书中专门开辟了一小节,详细讨论了如何避免“数据挖掘导致的假阳性”以及如何诚实地报告模型的不足之处。这种“负责任的统计实践”的理念,对于我们现在这个信息爆炸、数据滥用的时代尤为重要。它让我从一个单纯追求“会算”的执行者,转变成了一个更具批判性思维的观察者,开始思考“我是否应该用这个方法”,而不是仅仅“我能不能用这个方法”。这种深层次的引导,比教导任何一种具体的算法都更有价值。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有