数据仓库与数据挖掘技术

数据仓库与数据挖掘技术 pdf epub mobi txt 电子书 下载 2025

张兴会 著
图书标签:
  • 数据仓库
  • 数据挖掘
  • 数据分析
  • 商业智能
  • OLAP
  • ETL
  • 机器学习
  • 数据库
  • 大数据
  • 数据建模
想要找书就要到 静思书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 清华大学出版社
ISBN:9787302247012
版次:1
商品编码:10705300
品牌:清华大学
包装:平装
丛书名: 教育部“高等学校教学质量与教学改革工程”立项项目·普通高等教育“十一五”国家级规划教材
出版时间:2011-06-01
用纸:胶版纸

具体描述

内容简介

  数据仓库与数据挖掘是计算机专业和其他一些与计算机技术关系密切专业必修的核心课程。《数据仓库与数据挖掘技术》系统地介绍了数据仓库和数据挖掘的基本概念、相关知识和基本方法,每种数据挖掘方法都有详尽的实例描述和具体实现步骤。
  《数据仓库与数据挖掘技术》结构严谨,条理清晰,语言浅显易懂,循序渐进地表达了知识内容;《数据仓库与数据挖掘技术》坚持理论与实际相结合,概念和具体方法相结合,使知识具体化,生动化;实例实现的过程建立在SQL 2005数据挖掘软件的基础上,以帮助读者在学习后达到学以致用的目的。
  《数据仓库与数据挖掘技术》可以作为计算机类、信息类等相关专业本科生数据挖掘课程的教材,也可以作为其他专业技术人员的自学参考书。

目录

第1章 数据挖掘和数据仓库概述
1.1 数据挖掘引论
1.1.1 数据挖掘的由来
1.1.2 数据挖掘的定义
1.1.3 数据挖掘的功能
1.1.4 数据挖掘的常用方法
1.2 数据仓库引论
1.2.1 数据仓库的产生与发展
1.2.2 数据仓库的定义
1.2.3 数据仓库与数据挖掘的联系与区别
1.3 数据挖掘的应用
1.3.1 数据挖掘的应用领域
1.3.2 数据挖掘案例
1.4 常用数据挖掘工具
1.4.1 数据挖掘工具的种类
1.4.2 评价数据挖掘工具优劣的指标
1.4.3 常用数据挖掘工具
小结
习题
第2章 数据仓库
2.1 数据仓库的基本概念
2.2 数据仓库的体系结构
2.2.1 元数据
2.2.2 粒度的概念
2.2.3 分割问题
2.2.4 数据仓库中的数据组织形式
2.3 数据仓库的数据模型
2.3.1 概念数据模型
2.3.2 逻辑数据模型
2.3.3 物理数据模型
2.3.4 高层数据模型、中间层数据模型和低层数据模型
2.4 数据仓库设计步骤
2.4.1 概念模型设计
2.4.2 技术准备工作
2.4.3 逻辑模型设计
2.4.4 物理模型设计
2.4.5 数据仓库的生成
2.4.6 数据仓库的使用和维护
2.5 利用SQL Server 2005构建数据仓库
小结
习题
第3章 联机分析处理技术
3.1 OLAP概述
3.1.1 OLAP的由来
3.1.2 OLAP的一些基本概念
3.1.3 OLAP的定义与特征
3.2 OLAP中的多维分析操作
3.2.1 钻取
3.2.2 切片和切块
3.2.3 旋转
3.3 OLAP的基本数据模型
3.3.1 多维联机分析处理
3.3.2 关系联机分析处理
3.3.3 MOLAP和ROLAP的比较
3.3.4 混合型联机分析处理
3.4 OLAP的衡量标准
3.5 基于SQL Server 2005的OLAP实现
小结
习题
第4章 数据预处理
4.1 数据预处理概述
4.1.1 原始数据中存在的问题
4.1.2 数据预处理的方法和功能
4.2 数据清洗
4.2.1 属性选择与处理
4.2.2 空缺值处理
4.2.3 噪声数据处理
4.2.4 不平衡数据的处理
4.3 数据集成和变换
4.3.1 数据集成
4.3.2 数据变换
4.4 数据归约
4.4.1 数据归约的方法
4.4.2 数据立方体聚集
4.4.3 维归约
4.4.4 数据压缩
4.4.5 数值归约
4.4.6 离散化与概念分层生成
小结
习题
第5章 关联规则方法
5.1 关联规则的概念和分类
5.1.1 关联规则的概念
5.1.2 关联规则的分类
5.2 Apriori算法
5.2.1 产生频繁项集
5.2.2 产生频繁项集的实例
5.2.3 从频繁项集产生关联规则
5.3 FP-Growth算法
5.3.1 FP-Growth算法计算过程
5.3.2 FP-Growth算法示例
5.4 利用SQL Server 2005进行关联规则挖掘
小结
习题
第6章 决策树方法
6.1 信息论的基本原理
6.1.1 信息论原理
6.1.2 互信息的计算
6.2 常用决策树算法
6.2.1 ID3算法
6.2.2 C4.5算法
6.3 决策树剪枝
6.3.1 先剪枝
6.3.2 后剪枝
6.4 由决策树提取分类规则
6.4.1 获得简单规则
6.4.2 精简规则属性
6.5 利用SQL Server 2005进行决策树挖掘
6.5.1 数据准备
6.5.2 挖掘模型设置
6.5.3 挖掘流程
6.5.4 挖掘结果分析
6.5.5 挖掘性能分析
小结
习题
第7章 统计学习方法
7.1 朴素贝叶斯分类
7.1.1 贝叶斯定理
7.1.2 朴素贝叶斯分类
7.2 贝叶斯信念网络
7.2.1 贝叶斯信念网络
7.2.2 贝叶斯网络的特点
7.2.3 贝叶斯网络的应用
7.3 EM算法
7.3.1 估计�玨��个高斯分布的均值
7.3.2 EM算法的一般表述
7.4 回归分析
7.4.1 一元线性回归
7.4.2 多元线性回归
7.4.3 非线性回归
7.5 利用SQL Server 2005进行线性回归分析
小结
习题
第8章 人工神经网络方法
8.1 人工神经网络的基本概念
8.1.1 人工神经元原理
8.1.2 人工神经网络拓扑结构
8.1.3 人工神经网络学习算法
8.1.4 人工神经网络泛化
8.2 误差反向传播(BP)神经网络
8.2.1 BP神经网络的拓扑结构
8.2.2 BP神经网络学习算法
8.2.3 BP神经网络设计
8.3 自组织特征映射(SOFM)神经网络
8.3.1 SOFM神经网络的拓扑结构
8.3.2 SOFM神经网络聚类的基本算法
8.3.3 SOFM神经网络学习算法分析
8.4 Elman神经网络
8.4.1 Elman神经网络的拓扑结构
8.4.2 Elman神经网络权值计算
8.5 Hopfield神经网络
8.5.1 Hopfield神经网络的拓扑结构
8.5.2 Hopfield神经网络学习算法概述
8.5.3 离散Hopfield神经网络
8.5.4 连续Hopfield神经网络
8.6 利用SQL Server 2005神经网络进行数据挖掘
8.6.1 数据准备
8.6.2 挖掘流程
小结
习题
第9章 聚类分析
9.1 聚类概述
9.1.1 聚类简介
9.1.2 聚类的定义
9.1.3 聚类的要求
9.2 聚类分析中的相异度计算
9.2.1 聚类算法中的数据结构
9.2.2 区间标度变量及其相异度计算
9.2.3 二元变量及其相异度计算
9.2.4 标称型变量及其相异度计算
9.2.5 序数型变量及其相异度计算
9.2.6 比例标度型变量及其相异度计算
9.2.7 混合类型变量的相异度计算
9.3 基于划分的聚类方法
9.3.1 �玨��-平均算法
9.3.2 �玨��-中心点算法
9.4 基于层次的聚类方法
9.5 谱聚类方法
9.5.1 谱聚类的步骤
9.5.2 谱聚类的优点
9.5.3 谱聚类实例
9.6 利用SQL Server 2005进行聚类分析
9.6.1 挖掘流程
9.6.2 结果分析
小结
习题
第10章 粗糙集方法
10.1 粗糙集的基本概念
10.1.1 等价关系与等价类
10.1.2 信息表与决策表
10.1.3 下近似与上近似
10.2 基于粗糙集的属性约简
10.2.1 属性约简的有关概念
10.2.2 基于粗糙集的几种属性约简算法
10.3 基于粗糙集的决策规则约简
10.3.1 决策规则的定义
10.3.2 决策规则的约简
10.4 粗糙集的优缺点
10.4.1 粗糙集的优点
10.4.2 粗糙集的缺点
小结
习题
第11章 复杂结构数据挖掘
11.1 文本数据挖掘
11.1.1 文本数据的特点
11.1.2 文本挖掘的定义
11.1.3 文本挖掘的主要任务
11.1.4 文本挖掘的一般过程
11.1.5 文本挖掘的应用
11.2 Web数据挖掘
11.2.1 Web数据的特点
11.2.2 Web挖掘的定义
11.2.3 Web挖掘分类
11.2.4 Web挖掘过程
11.2.5 Web数据挖掘的应用
11.3 空间数据挖掘
11.3.1 空间数据的复杂性特征
11.3.2 空间数据挖掘的定义
11.3.3 空间数据挖掘知识的类型
11.3.4 空间数据挖掘的用途
11.4 多媒体数据挖掘
11.4.1 多媒体数据挖掘的概念
11.4.2 多媒体挖掘的分类
小结
习题
参考文献

前言/序言


洞见数据的力量:构建智能决策的基石 在信息爆炸的时代,数据已成为企业最宝贵的资产,但海量、异构的数据并非天然的财富,它们更像是未经雕琢的矿石。如何从这些“矿石”中提炼出闪耀的“金子”,驱动业务增长,赋能精准决策,已成为现代组织面临的核心挑战。本书并非探讨构建数据仓库或挖掘数据背后隐藏规律的工具与方法,而是将目光聚焦于一个更宏观、更具战略意义的层面——如何系统性地构建一个强大的数据驱动型组织,让数据成为企业决策、创新与竞争的核心引擎。 我们将深入探讨,在一个组织内部,如何建立一种“数据文化”。这不仅仅是鼓励员工使用数据,更重要的是培养一种“以数据为证,用数据说话”的思维模式。我们会解析,这种文化是如何从高层领导者的支持与垂范开始,通过教育、培训、激励机制以及跨部门的协作,渗透到组织的每一个角落。我们将分析,当数据成为决策的基石时,从产品开发、市场营销、客户服务到运营管理,每一个环节都将焕发出新的活力。一个真正的数据驱动型组织,意味着每一项战略的制定、每一次资源Allocation的调整,都能够基于扎实的数据分析,而非经验或直觉。 本书将详细阐述“数据治理”的体系化建设。这并非关于数据清洗、转换的 ETL 过程,而是关于如何建立一套全面、可持续的数据管理框架。我们将深入分析,一个有效的“数据治理”体系,应该包含哪些关键要素:清晰的数据所有权与责任界定、严格的数据质量标准与保障机制、完善的数据安全与隐私保护措施、以及一套行之有效的数据生命周期管理策略。我们会剖析,为什么看似繁琐的数据治理流程,却是构建数据信任、确保数据可信赖、从而发挥数据价值的前提。一个组织如果连自己的数据都无法信任,又何谈基于数据做出明智决策?我们将分享,如何通过建立跨部门的“数据治理委员会”,制定行业标准,并将其融入日常运营流程,最终将数据治理的理念转化为组织成员的行为习惯。 接下来,我们将重点聚焦于“数据战略的制定与落地”。这远不止是制定一个技术路线图,而是将数据视为企业核心战略资产,并围绕其构建一套完整的“数据能力蓝图”。我们将探讨,如何根据企业的业务目标,明确“数据战略”的核心方向:是提升客户洞察力,优化运营效率,还是驱动新的商业模式?我们还会深入分析,如何将抽象的“数据战略”转化为可执行的“行动计划”,包括确定关键数据指标(KPIs)、识别所需的数据基础设施(而非具体的技术实现)、明确所需的人才能力、以及建立衡量战略落地成效的评估体系。本书将强调,“数据战略”的成功与否,最终取决于其能否与企业的整体业务战略紧密结合,并能够真正地指导组织资源的投入方向和优先级。 此外,本书还将深入探讨“数据驱动的创新与商业模式再造”。当数据不再仅仅是报表上的数字,而是成为了理解客户、洞察市场、甚至创造新价值的源泉时,企业将迎来前所未有的创新机遇。我们将通过一系列的案例分析,展示数据如何催生颠覆性的产品和服务,如何帮助企业发现新的市场蓝海,以及如何重塑传统的商业模式。例如,基于用户行为数据的个性化推荐,如何从单纯的商品销售转变为提供“解决方案”的服务;通过分析海量交易数据,如何构建“金融科技”的创新服务;利用物联网传感器数据,如何实现“预测性维护”并创造新的服务收入。本书将激发读者思考,如何利用数据的力量,跳出固有的思维框架,探索更加广阔的商业可能性。 我们还将关注“数据赋能的组织变革与人才发展”。数据驱动的转型,必然伴随着组织架构、工作流程以及员工技能的深刻变革。本书将分析,如何通过系统性的“人才培养计划”,弥合数据技能鸿沟。这包括为不同层级的员工提供量身定制的“数据素养培训”,从基础的数据阅读、理解能力,到进阶的数据分析、解读能力,再到专业的数据科学家、分析师的培养。我们将探讨,如何建立一套“敏捷的数据团队”,让他们能够快速响应业务需求,灵活地开展数据探索与分析。同时,我们也会讨论,在数据驱动的转型过程中,如何有效地进行“组织沟通与变革管理”,克服员工的抵触情绪,建立共识,确保转型的平稳进行。 最后,本书将着眼于“构建可持续的数据生态系统”。在一个日益互联互通的世界里,企业的数据价值往往不只局限于自身内部。如何与其他企业、研究机构、甚至开放数据平台进行“数据协同”,将成为提升整体价值的重要途径。我们将探讨,如何构建一个开放、安全、可信赖的“数据共享机制”,在遵守法律法规的前提下,实现数据价值的最大化。例如,通过行业内的数据联盟,共同解决行业难题;与合作伙伴进行数据Exchange,提升供应链效率;甚至利用公共数据集,进行前瞻性的市场研究。构建强大的数据生态系统,意味着组织不再是孤立的个体,而是数据驱动的创新网络中的重要节点。 总而言之,本书旨在为读者提供一个全面、系统、战略性的视角,去理解和构建一个真正由数据驱动的强大组织。它不提供具体的代码或算法,而是聚焦于“文化、战略、治理、创新与人才”这些支撑数据价值释放的底层逻辑和关键要素。通过阅读本书,您将能够深刻理解,如何将数据从一个技术层面的概念,转化为驱动企业核心竞争力、引领未来发展方向的强大引擎。这是一场关于“洞见数据力量,构建智能决策基石”的深度探索。

用户评价

评分

说实话,一开始我抱着试试看的心态翻开了这本书,以为会是一本晦涩难懂的学术著作,但没想到它的内容却如此生动有趣。作者的语言风格非常接地气,他善于用生活中常见的例子来类比复杂的概念,比如用“整理房间”来解释数据清洗的过程,用“建立图书馆”来比喻数据仓库的构建。这种生动形象的比喻,让我能够轻松理解那些原本听起来就让人头疼的技术术语。而且,书中在讲解各种数据挖掘方法时,都附带了大量的案例分析,这些案例都非常贴近实际业务,让我能够清晰地看到这些技术是如何在实际工作中发挥作用的。我尤其对书中关于客户细分和市场营销优化的章节印象深刻,它让我看到了数据挖掘在提升用户体验和精准营销方面的巨大潜力。读完这本书,我不再害怕面对那些庞杂的数据,而是能够从中找到乐趣,并从中获得解决实际问题的灵感。这绝对是一本能够让你在轻松愉快的氛围中,掌握核心数据技术的优秀读物。

评分

这本书的结构设计非常合理,循序渐进,从基础概念到高级应用,层层递进,让读者能够逐步掌握数据仓库和数据挖掘的核心技术。开篇的介绍非常有启发性,它不仅解释了为什么需要数据仓库,还阐述了数据仓库在企业信息系统中的地位和作用,让我从宏观层面建立起了对数据仓库的整体认识。接着,书中详细讲解了数据仓库的构建过程,包括数据源分析、数据模型设计、ETL流程实现以及数据仓库的部署和管理。我特别喜欢书中关于数据模型设计的章节,它深入浅出地介绍了事实表和维度表的概念,以及如何构建适合不同业务场景的维度模型。在数据挖掘部分,书中介绍了多种经典的挖掘算法,如分类、聚类、关联规则等,并结合实际案例讲解了它们的应用。其中,关于异常值检测和欺诈检测的章节,让我对数据挖掘在风险控制方面的应用有了更深的理解。这本书的语言简洁明了,图文并茂,非常适合初学者入门,同时也能够为有一定基础的读者提供更深入的指导。

评分

这本书给我带来的最大改变,就是让我看到了数据背后隐藏的巨大价值,以及如何通过系统性的方法去发掘和利用它。在阅读之前,我总觉得数据只是零散的信息,很难形成有用的洞察。但这本书就像一盏明灯,为我指明了方向。它系统地介绍了构建数据仓库的整个流程,从数据模型的选择,到ETL(抽取、转换、加载)过程的设计,再到数据仓库的优化和维护,每一个环节都进行了详细的阐述。我尤其喜欢书中关于维度建模的讲解,它让我理解了如何构建一个既能支持日常查询,又能满足复杂分析需求的数据模型。在数据挖掘方面,书中也提供了非常全面的介绍,涵盖了从数据预处理到模型评估的整个生命周期。我最感兴趣的是书中关于文本挖掘和情感分析的内容,它让我看到了如何从非结构化数据中提取有意义的信息,这在当下信息爆炸的时代尤为重要。总而言之,这本书不仅教授了技术,更重要的是,它教会了我如何用一种全新的视角去看待数据,如何让数据成为我们解决问题、做出决策的强大武器。

评分

这本书简直是把我从一个对数据一窍不通的小白,变成了一个能够自信地探索和理解海量信息的人。我一直觉得数据就像一个巨大的谜团,里面隐藏着无数宝藏,但如何去挖掘却是个大问题。这本书的出现,就像给我递上了一把精准的钥匙,让我能够一步步解开数据背后的秘密。它不仅仅是理论的堆砌,更像是实操的指南,用非常生动形象的例子,把原本枯燥的技术概念变得触手可及。我尤其喜欢书中关于数据采集和清洗的部分,这一点对于实际应用来说至关重要,很多时候我们拿到手的原始数据都是一团糟,如何有效地处理这些“脏数据”,书中给出了非常系统的方法,从数据源的选择到质量检查,再到数据转换和加载,每一个环节都讲得条条是道。而且,作者并没有止步于此,还深入浅出地介绍了数据建模的艺术,如何设计出高效、灵活的数据模型,这就像给数据搭建了一个坚实的骨架,让后续的分析能够事半功倍。读完之后,我感觉自己看待数据的方式完全变了,不再是望而却步,而是充满了探索的兴趣和信心。

评分

这本书的叙述方式非常独特,它没有像许多教科书那样直接抛出概念和公式,而是从一个引人入胜的故事开篇,逐步引导读者进入数据仓库和数据挖掘的奇妙世界。我最欣赏的是它对业务场景的深度融合,它不是孤立地讲解技术,而是始终围绕着“为什么需要这些技术”、“这些技术能解决什么实际问题”来展开。举个例子,在讲到数据集成时,书中通过一个零售业企业如何整合线上线下销售数据,来形象地说明数据仓库在打通信息孤岛方面的重要作用。这种“情境化”的学习方式,让我能够快速理解技术背后的逻辑和价值。而且,书中对不同类型的数据挖掘算法的介绍,也是循序渐进,从最基础的关联规则挖掘,到更复杂的聚类和分类算法,都配有详细的解释和图示,让我能够清晰地掌握每种算法的适用场景和工作原理。我特别喜欢书中关于预测性分析的部分,它让我看到了如何利用历史数据来预测未来的趋势,这对于企业决策来说,简直是无价之宝。这本书让我对如何从海量数据中提取有价值的洞察,有了全新的认识。

评分

知识点多,也都是点到即止的教科书风格

评分

SAS统计分析实用宝典》用通俗易懂的语言阐述了SAS统计分析软件的用法和各种统计分析方法的基本原理。内容由浅入深、循序渐进,书中的每个知识点都有相应的实例演示,每章都附有练习题,帮助读者从实际角度体验统计方法的SAS实现过程。本书配1张光盘,内容为本书配套教学视频和涉及的源数据。

评分

8.5VV.4

评分

11A.2.1

评分

还行,作为入门读物花几个小时过一遍

评分

O元数据

评分

1.效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好

评分

粗糙集的优点

评分

7.3.2

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有