产品特色
编辑推荐
生活结合专业 有趣幽默 活泼生动 寓教于乐 难得的统计学普及读物 将枯燥的知识酝于生动的、贴近生活的例子中去 快乐教学
内容简介
如今大数据越来越热,大小公司都希望能利用优秀的数据分析来实现产品驱动,为公司创造更多利润。要做好数据分析,就必须掌握一定的统计学知识,这引发了人们对统计学的热情。而绝大多数人是没有统计学的专业技能训练的。本书为您详细介绍生活中的统计学内容。全书内容丰富,具有一定的知识性、理论性及阅读性。
目录
第1章如何从海量数据中筛选你需要的数据
——数据的收集
1.1从柏拉图摘麦穗说起
1.1.1如何摘到最大的麦穗
1.1.2样本点和样本的区别
1.1.337%法则
1.2新生婴儿性别比例总是趋于稳定吗
1.2.1近似相等与相等的重要区别
1.2.2从婴儿性别比例推广到火柴燃烧时间
1.2.3大数定理在保险行业的应用
1.3为什么一小部分人的意见就能代表全体人
1.3.1100个人的收入能代表10000个人的
收入吗
1.3.2确定抽样人均收入与真实人均收入间
的误差
1.3.3考虑样本的最佳大小
1.4一份标准试卷是怎么设计出来的
1.4.1抽样时真的能做到完全随机吗
1.4.2确保高考试卷的公平性
1.4.3抽样调查的一些补充要点
生活中的统计学
目录
第2章小小统计量中的大奥妙
——描述性统计分析
2.1你知道年龄属于哪一类数据吗
2.1.1如何用数字表示求职者的最高学历
2.1.2统计调查中专用的数据类型有哪些
2.1.3新浪微博属于哪类数据
2.2平均薪资的陷阱和真相
2.2.1是谁拉高了平均薪资
2.2.2如何计算加权平均薪资
2.2.3用四分位数估计薪资区间
2.3得分高就是好球员吗
2.3.1用极差、四分位差和平均差衡量球员的
水平
2.3.2方差和标准差的关系
2.3.3消除了量纲的统计量
2.4常见的社会经济统计量
2.4.1国内生产总值到底是怎么核算出来的
2.4.2根据国内生产总值衍生出的其他统计量
2.4.3基尼系数和恩格尔系数
第3章使用色彩和图形传递信息
——绘制统计图表
3.1为什么条形图比折线图更好
3.1.1最基本的3种图形
3.1.2条形图优于折线图的两个理由
3.1.3直方图和条形图的区别
3.2离散型变量适合绘制的图形
3.2.1什么样的数据适合画饼图
3.2.2有时候表格比图形更重要
3.2.3马赛克图和茎叶图也是图形的一分子
3.3为高维变量绘图
3.3.1三维图一定比二维图美观吗
3.3.2按照变量绘制高维图形
3.3.3按照样本点绘制高维图形
3.4好图形的3个标准
3.4.1常见的几种绘图错误
3.4.2一些优秀图表案例
第4章用概率的眼光看世界
——常用的几种概率分布
4.1买彩票真的能发家致富吗
4.1.1由福彩6+1的中奖概率导出二项分布
4.1.2计算福彩6+1的获奖期望
4.1.3超几何分布和人寿保险问题
4.2几点出门才不会迟到
4.2.1用二项分布逼近泊松分布
4.2.2一个简单的公共汽车客流案例
4.2.3如何判断一个分布是否为泊松分布
4.3捕捞到金鱼的概率有多大
4.3.1从水缸里捞金鱼谈到几何概率
4.3.2一维均匀分布和二维均匀分布
4.3.3利用均匀分布进行模拟估计
4.4智商多少才是正常水平
4.4.1高尔顿板实验和正态分布的联系
4.4.2一元正态分布的主要性质
4.4.3计算正态分布的概率
4.5手提电脑的寿命到底有多长
4.5.1电器寿命和指数分布的关系
4.5.2从泊松过程中推导指数分布
第5章用概率分布解决实际问题
——参数估计和非参数估计
5.1根据月账单明细估计消费水平
5.1.1估计湖中的鱼苗数目
5.1.2选择账单明细的方差估计量
5.1.3点估计量的其他性质
5.2进一步估计消费区间
5.2.1估计变量是否服从正态分布
5.2.2估计消费账单的区间
5.3直方图估计VS核密度估计
5.3.1用直方图估计花萼宽度数据的分布
5.3.2使用核函数使密度函数变得平滑
5.3.3K近邻估计和聚类分析
第6章判断估计结果的合理性——假设检验
6.1如何得知袋装面包有没有偷工减料
6.1.1确定面包重量的分布
6.1.2双侧假设检验
6.1.3单侧假设检验
6.2投放广告能增加销售额吗
6.2.1检验两个正态分布的均值
6.2.2检验两个正态分布的方差
6.2.3有关假设检验的补充知识
6.3由遛狗结果求解后验概率
6.3.1轮盘赌和遛狗的条件概率
6.3.2儿童智商问题与参数的区间估计
6.3.3根据后验概率比进行假设检验
6.4补习班真的能提高小孩成绩吗
6.4.1参数检验和非参数检验的区别
6.4.2利用样本的秩判断两组成绩数据是否
有差别
6.4.3从另一种角度检验补习班问题
6.5检验离散型的顺序变量和因子变量
6.5.1卡方分布就是正态分布的平方和
6.5.2检验历年战争次数是否服从泊松分布
6.5.3检验年龄和投票结果是否相互影响
第7章从稻田试验发展出的学科——方差分析
7.1从F分布推出方差分析的基本原理
7.1.1从卡方分布导出F分布
7.1.2方差分析的一些基本知识
7.2去哪家餐厅吃饭更合算
7.2.1餐厅得分的组内差异和组间差异
7.2.2使用F分布检验餐厅得分是否有所不同
7.2.3方差分析的多重比较问题
7.3餐厅的地理位置会影响菜肴的美味程度吗
7.3.1在餐厅问题中引入餐厅地理位置因素
7.3.2考虑地理位置与餐厅的交互作用
7.3.3从两因素方差分析推广到其他的方差
分析
7.4中药和西药哪个对糖尿病更有效
7.4.1配对比较实验设计问题
7.4.2随机化区组实验设计问题
精彩书摘
第1章
如何从海量数据中筛选你需要
的数据——数据的收集
本章介绍了统计学中的一个分支——推断统计。大数定理和中心极限定理是推断统计的主要内容,随机抽样则是它们的重要前提。本章通过几个案例说明了这两个定理的有效性和重要性,还讨论了随机抽样的相关问题。
生活中的统计学
第1章如何从海量数据中筛选你需要的数据——数据的收集
1.1从柏拉图摘麦穗说起
在不回头而且只能摘一次麦穗的要求下,有没有可能摘到最大的麦穗?怎样才能保证摘到最大麦穗的概率最大?而最佳策略又会在什么情况下失效?简单的哲学问题中蕴含了有趣的统计学知识,这正是本小节要讨论的内容。
1.1.1如何摘到最大的麦穗
有一个流传很广的故事是这样说的:
有一天,柏拉图问他的老师苏格拉底什么是爱情,苏格拉底回答说:“你去麦田里,随便选一条小径,顺着向前走,从路两旁摘一棵你觉得最大最金黄的麦穗,但是你只能摘一次,而且也不能回头。”
柏拉图两手空空地走出麦田,苏格拉底问他为什么摘不到,他回答说:“因为只能摘一次,又不能走回头路,其间即使见到一棵又大又金黄的,因为不知前面是否有更好,所以没有摘;走到前面时,又发觉总不及之前见到的好,原来麦田里最大最金黄的麦穗,早就错过了;于是,我什么也没摘到。”
苏格拉底说:“这就是爱情。”
哲学家看到这个故事,心里会无限唏嘘,啊,原来这就是爱情,爱情就是给人回忆和经历的东西,然后还能散发联想到“我从哪里来”“要到哪里去”之类的其他事情。数学家却不这样想,怎么可能会摘不到最大最金黄的麦穗呢?即便摘不到最好的,也一定存在某种方法能够摘到比较好的麦穗。
大部分田中小径都是笔直的,因此当柏拉图站在小径一端时,应该是能目测出小径的长度的。同时,麦田中的麦子排列得往往都十分整齐,柏拉图只需稍微看一眼,便能估算出麦子间的间隔有多大,小径两旁种了多少行麦子。
不妨假设这条小径长100米,种了200行麦子,那么,柏拉图能够摘到的就是路两侧的400棵麦穗。那么,怎么才能从这400棵麦穗中选出最大最好的一棵呢?
评价一棵麦穗好不好时,一方面要看它大不大,一方面要看它黄不黄。麦穗的大小可以用麦穗从顶到底的长度来表示,麦穗的颜色可以用色度来表示。我们称一棵麦穗就是一个样本,“麦穗从顶到底的长度”“麦穗的色度”就是两个指标,并且称全部的400棵麦穗为一个总体。
显然,在我们假想出的这个总体里包含400个样本,每一个样本包含两个指标。如果将这些数据记录在Excel里边,就能得到一个400行、2列的表格。我们的任务就是从这400个样本里选出指标值最大的那个样本。
回到摘麦穗问题上。如果能够回头,这个问题是很好解决的,柏拉图只需从小径一头走到另一头,记下最好的麦穗是哪棵,再回头把它摘下来就可以了。用抽象的数学语言表达,就是概览一遍总体中的数据,再选出最佳的样本点。
但是由于柏拉图不能回头,因此就不能根据位于他前方的麦穗的好坏来决定摘哪棵麦穗,只能根据位于他后方的麦穗的好坏来下决定。当柏拉图站在起始位置时,他对于麦田中的麦穗是一无所知的,当他踏出第一步,见到第一棵麦穗后,就对麦田中的麦穗有了一点儿了解,随着他见过的麦穗越来越多,他对麦田整体的认识也就越来越全面。
……
前言/序言
前言:就这样爱上统计学
统计学是一门与实际生活十分贴近的学科,它起源于研究社会经济问题,早在古希腊时期,亚里士多德就发明了以记录各希腊城邦的历史、行政、科学、艺术、人口、经济等数据的城邦纪要,除去这些日常记录外,统计学也很早就被应用在卫生监察和健康等方面。
约翰医生平息霍乱是一个著名的统计学例子。霍乱是19世纪最令人害怕的流行疾病,它在伦敦曾肆虐多次,夺走了数千万人的生命。约翰·斯诺统计了一些霍乱死者的生活情况,发现霍乱的发生与水源有明显关联,凡是在百老大街的水泵取水的伦敦居民,发病率明显要高很多。由此,约翰医生证明水源是霍乱传播的一大途径,提出了实用的几种预防措施,有效降低了霍乱的致死率。
另一个类似的例子发生于克里米亚战争期间。1845—1856年,南丁格尔为克里米亚交战双方的伤兵服务,将后方医院的死亡率由42.7%下降至2.2%,以人道、慈善之心挽救了许多人的生命。同时,她还是英国皇家统计学会的第一名女性会员,她发明了极区图,反映了不同时间段内战斗死亡的士兵人数与受伤而缺乏治疗死亡的士兵人数,清晰地说明前者的数量少于后者,从而使英国当局意识到改善伤兵医疗工作的必要性。
在现代社会,统计学逐渐推广到社会科学、自然科学和工程技术科学等越来越多的领域,应用例子更是多如繁星、数不胜数。美国零售巨头沃尔玛归纳分析了消费者的购物小票,发现年轻爸爸们在购买尿布时,常常会搭两瓶啤酒,好在晚上看电视时过过酒瘾。于是,沃尔玛将两者放在一起销售,使尿布和啤酒的销量均大幅增加,这就是著名的“啤酒与尿布”案例。
生活中的统计学
前言:就这样爱上统计学
而1936年美国总统大选则是一个统计学家津津乐道的反面案例。著名的《文学摘要》杂志社按照电话簿目录和汽车俱乐部成员名单向外派发了1 000万份调查问卷,调查结果显示兰登将获胜,但实际结果恰好与调查结果相反。
这是由于当时电话和汽车十分昂贵,几乎是中产阶级的代名词,《文学摘要》忽略了这点,它的调查结果只能说明中产阶级更支持兰登,而实际上人数更多的贫困阶级则是罗斯福的忠实拥护者。这一疏忽直接导致《文学摘要》威信扫地,关门停刊。
在亚里士多德之后,英国的威廉·配弟使用数字、重量和尺度将社会经济现象数量化,并于1672年出版《政治算数》一书,这是近代统计学成立的标志。从此,统计方法与数学计算和推理方法开始结合。
统计学的两个核心理论是大数定理和中心极限定理,前者证明了一小部分样本即可代表全体,后者解释了样本量和结果可靠性之间的联系。这两个定理共同保证了抽样分析的合理性。本书开篇便介绍了这两个定理,以及如何挑选样本,确保分析结果的可靠性。
抽取出样本数据后,探索性分析是不能跳过的一个分析步骤。本书的第2章介绍了各种探索性分析方法,第3章则用图表的形式来表现分析结果。这两个章节的意义在于初步了解样本数据的特点。
概率分布是现代统计学的理论基础。从15世纪开始,数学家就对赌博问题产生了浓厚的兴趣,最知名的赌博问题有分赌注问题和三门问题等。传统的赌博问题引出的是离散概率,由离散概率进一步研究,又得到连续概率。本书第4章讨论了几种常用的概率分布。
在学习统计学的理论基础后,一个自然而然的想法是使用样本中的信息去估计总体中的信息。例如,灯泡厂抽样检查时,抽取的灯泡寿命和全部灯泡的寿命是什么关系?参数估计和非参数估计所关心的就是这样的问题。第4章详细地讨论了这些内容,即如何用样本中的信息来表达总体中的信息。
有了对总体的估计后,我们还关心这个估计是否可靠。同样的估计方法在不同情况下的可靠性是不同的,第5章总结了如何判断估计值的可靠性,即假设检验的内容。第6章的主题是方差分析,它是假设检验的进一步延伸。方差分析与实验设计紧密相关,它最早用于解决农业问题,即改变各个培养条件,通过观察产量找出最佳的麦子种植方法。
第5、6、7三章的内容彼此相关,第8章则较为独立。它研究了一些变量是如何决定另一些变量的,相关分析和回归分析是统计学中十分重要的部分,也是实际生活中应用最广的两种分析方法。
总之,统计学是一门发展时间较长、较成熟的学科。随着大数据的崛起,统计学也被注入了新的元素。越来越多的人激发了对统计学的兴趣。本书较全面地介绍了常见的统计学分析方法,包括描述性统计分析、参数估计、非参数估计、相关分析和回归分析等部分。此外,本书还注重与实际案例的结合,生活中的许多常见现象都可以在本书中找到踪影。在写作本书过程中,我们也注意坚持以下特色。
本书特色
1. 案例贴近生活,语言生动有趣,实用性强
统计学出现在生活中的方方面面,一些大家常见的生活现象背后蕴含着深刻的统计学原理。本书通过讨论这些活生生的案例,使用生动活泼的语言,形象地讲解了10余种统计分析方法,这些案例能帮助读者较容易地领略统计分析背后的原理,而这些方法反过来又可以解决许多生活中的实际问题。通过阅读本书,读者能够深切地体会到统计学在生活中的各种用处。
2. 内容深入浅出,层层递进,适合各个层次的读者
本书从最简单的描述性统计分析入手,由易到难,依次讲解了统计图表绘制、概率分布等基础知识,以及参数估计、方差分析、相关分析和回归分析等分析方法。而在每一章节中,作者也精心安排知识点分布,以达到层层递进的效果。本书内容深入浅出,读者既可以按照顺序依次阅读,也可根据自己的实际水平,单独阅读每一章节。
3.文章脉络清晰,构建出一个完整的数据分析知识体系
统计学分析的各个分析方法之间存在递进关系,如方差分析是在假设检验的基础上发展得来的,而假设检验又是对参数估计的拓展与延伸。本书按照各个知识点的关系合理地组织了文章结构,各个章节间彼此关联,构建出一个完整的数据分析知识体系,可帮助读者对统计分析形成一个全面的认识。
本书体系结构
本书共由8章构成,每一章都有一个独立的主题,分别为数据的收集、描述性统计分析、绘制统计图表、常用的几种概率分布、参数估计和非参数估计、假设检验、方差分析、相关与回归问题。这8个章节又进一步可分为两大部分。
第一部分为前4章。其中第1章讨论了大数定律、中心极限定理和几种常用的抽样方法,解释了统计分析中样本数据通常是从何而来,以及统计分析方法为何有效。第2章讨论了一些常见的统计量,如均值、方差、四分位差等,并从统计学角度严格地阐述了它们的不同,以及它们的特点,这一章节有助于读者初步构建统计思想,从统计学的角度理解问题。第3章的主题是绘制图表,这一章与第2章节前后呼应,向读者展示了统计学的一个基本职能,即将分析结果简洁明了地表达出来。第4章则是有关概率分布的基本知识,这是比较抽象而难以理解的一章,通过阅读这一章节,读者将正式踏入统计学的大门。
第二部分为后4章。在学习基础知识后,读者将开始接触更高深的统计学分析方法。第5章包含两个主题,即参数估计和非参数估计,它们研究的是如何用样本中的信息去估计总体中的信息。第6章讨论了样本对总体的估计是否可靠。而第7章则是对第6章的拓展,将两个样本的情况拓展到多个样本中去。
第5、6、7章的内容环环相扣、相辅相成,第8章则较为独立。但相关分析和回归分析是统计学中十分重要的部分,也是实际生活中应用最广的两种分析方法。第8章仅简要讨论了几种常见的回归方法,还有一些内容并未列出,如泊松回归分析等。
以上划分方法仅为一个参考,本书的8个章节互相联系又彼此独立,读者可按照上述顺序阅读本书,也可优先阅读某些章节,如在读完前4章后,可直接阅读第8章。
本书读者对象
· 想要学习统计学的数据分析从业人员
· 统计学、金融学、计算机技术与科学等专业的学生
· 想要提高统计分析能力的数据分析师
· 希望系统学习统计分析方法的从业人员
· 其他对统计学有兴趣爱好的各类人员
编者
2017年7月
生活中的统计学 epub pdf mobi txt 电子书 下载 2024
生活中的统计学 下载 epub mobi pdf txt 电子书 2024