内容简介
本书按照处理数据的逻辑顺序和习惯,从数据的整理开始入手。从数据的抽样开始,介绍了传统统计的抽样理论,并进一步探讨大数据样本的代表性问题。并且通过具体案例向读者介绍整个数据探索性分析的主要步骤。然后是数据的展示技术,也就是常说的数据可视化,从数据的类型以及展示的内容不同,分别介绍了单变量和多变量数据的多种图示方法,数据的分布形态、高维数据、空间数据的展示,并且介绍了统计制图的一些基本原则和图形美化的操作。
本书主要面向的应用统计专业硕士、有统计学本科基础的各专业硕士研究生,我们也希望对这方面感兴趣的统计专业高年级的本科生以及其他各个领域的有数据分析需求的学生和从业人员可以阅读参考。
作者简介
吴翌琳,经济学博士,中国人民大学统计学院、中国调查与数据中心副教授,主要从事经济统计分析、创新经济计量、指数编制与应用、数据可视化等应用统计方向的研究。主持国家自然科学基金、教育部人文社科基金、国家统计局统计科学研究计划项目等课题十项,主要参与的国家部委科研课题项目二十余项。先后在《World Development》、《统计研究》、《调研世界》、《经济理论与经济管理》、《宏观经济研究》等核心期刊上发表学术文章20余篇。曾受邀作为联合国大学荷兰马斯特里赫特分校访问学者,进行为期一年的访问,参与欧盟第七号框架下的项目研究工作。并五次受邀作为法国国家统计局(INSEE)访问学者,参与欧盟-中国项目研究。
房祥忠 博士,北京大学数学科学学院教授,概率统计系主任。曾获的北京科技进步二等奖,国防科学技术三等奖。研究方向为生存分析和可靠性。
目录
第1章导论
第1节大数据现象产生的背景
第2节大数据现象综述
第3节大数据分析举例
第4节大数据探索性分析的主要内容
第2章大数据背景下的抽样分析
第1节抽样调查的基础知识
第2节数据集的相似性度量
第3节概率抽样
第4节非概率抽样
第5节大数据抽样
第3章大数据的数据预处理
第1节整齐数据
第2节数据的管理与清洗
第3节数据的变换
第4节缺失值的处理
第5节异常点的检测
第6节变量选择
第4章探索性数据分析方法
第1节多维数据的可视化技术
第2节投影寻踪
第3节独立成分分析
第4节探索性数据分析案例
第5章大数据的展示
第1节统计制图的基本概念
第2节单变量数据的展示
第3节多变量数据的展示
第4节数据分布形态的展示
第5节高维数据的展示
第6节空间数据的展示
第7节统计图的美化
第6章空间数据分析
第1节空间数据基础知识
第2节空间统计介绍
第3节探索性空间数据分析
第4节空间自相关分析
第5节时空扫描统计分析
第6节空间回归分析
第7节空间面板分析
第8节贝叶斯时空模型
第9节空间估算
参考文献
精彩书摘
随着海量存储成为可能,各种收集数据的手段、方法和设备广泛应用,人们能够成功地存储和分析大量的、关系复杂的数据,“大数据”一词也越来越吸引人们的目光。提及“数据”,人们不免联想到“统计学”,这一处理数据的科学。在大数据时代,传统的统计学思想方法能否处理新的问题?如何处理新的问题?这些问题常常引起人们的思考和热议。在这样的背景下,本套丛书应运而生,从学术的角度向大家展示大数据与统计方法的结合。
说起大数据,大家首先想到的是一张张复杂的数据表格、大小不一的数字,那么,如何从这些纷繁复杂甚至杂乱无章的数据中提取有用信息呢?这就是本书的主要内容——大数据探索性分析!本书按照处理数据的逻辑顺序和习惯,从数据的整理开始入手。从数据的抽样开始,介绍传统统计的抽样理论,并进一步探讨大数据样本的代表性问题。接着从数据预处理的角度,介绍数据清洗、数据变换、缺失数据和异常值的处理等问题,还介绍了一些变量选择的内容,让读者了解,初步收集到的数据并非直接可以下手分析,而是要经过一个复杂细致的清理过程。紧接着介绍大数据探索性分析的统计方法,主要包括多维度数据的可视化问题、投影寻踪分析以及独立成分分析,并且通过具体案例向读者介绍整个数据探索性分析的主要步骤。然后是数据的展示技术,也就是常说的数据可视化,从数据的类型以及展示的内容不同,分别介绍了单变量和多变量数据的多种图示方法,数据的分布形态、高维数据、空间数据的展示,并且介绍了统计制图的一些基本原则和图形美化的操作。到此,基本上完成对于一个数据集的基础性探索分析,而最后一章属于进阶的内容,结合当前大数据的时空分布特点,以疾病分布为例,介绍时空大数据的探索性分析,以及空间统计模型的基本原理和方法,并且介绍了空间统计方面专用软件的操作步骤。
前言/序言
大数据探索性分析(大数据分析统计应用丛书) epub pdf mobi txt 电子书 下载 2025
大数据探索性分析(大数据分析统计应用丛书) 下载 epub mobi pdf txt 电子书 2025