數據挖掘 概念與技術(原書第3版) [Data Mining Concepts and Techniques Third Edition]

數據挖掘 概念與技術(原書第3版) [Data Mining Concepts and Techniques Third Edition] pdf epub mobi txt 電子書 下載 2025

[美] Jiawei Han,[美] Micheling Kamber,[美] Jian Pei 等 著,範明,孟小峰 譯
圖書標籤:
  • 數據挖掘
  • 機器學習
  • 數據分析
  • 知識發現
  • 數據庫
  • 算法
  • 統計學
  • 人工智能
  • 模式識彆
  • 商業智能
想要找書就要到 靜思書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 機械工業齣版社
ISBN:9787111391401
版次:1
商品編碼:11056660
品牌:機工齣版
包裝:平裝
叢書名: 計算機科學叢書
外文名稱:Data Mining Concepts and Techniques Third Edition
開本:16開
齣版時間:2012-08-01
用紙:膠版紙
頁數:4

具體描述

編輯推薦

  

  ◆數據挖掘領域有裏程碑意義的經典著作
  ◆完整全麵闡述該領域的重要知識和技術創新
  ◆數據挖掘和知識發現領域內的所有教師、研究人員、開發人員和用戶都必讀的參考書
  ◆適用於數據分析、數據挖掘和知識發現課程的優秀教材,可以用做高年級本科生或者一年級研究生的數據挖掘導論教材。
  
 
  
  

內容簡介

  《數據挖掘:概念與技術(原書第3版)》完整全麵地講述數據挖掘的概念、方法、技術和全新研究進展。本書對前兩版做瞭全麵修訂,加強和重新組織瞭全書的技術內容,重點論述瞭數據預處理、頻繁模式挖掘、分類和聚類等的內容,還全麵講述瞭OLAP和離群點檢測,並研討瞭挖掘網絡、復雜數據類型以及重要應用領域。
  《數據挖掘:概念與技術(原書第3版)》是數據挖掘和知識發現領域內的所有教師、研究人員、開發人員和用戶都必讀的參考書,是一本適用於數據分析、數據挖掘和知識發現課程的優秀教材,可以用做高年級本科生或者一年級研究生的數據挖掘導論教材。

作者簡介

  Jiawei Han(韓傢煒),是伊利諾伊大學厄巴納-尚佩恩分校計算機科學係的Bliss教授。他因知識發現和數據挖掘研究方麵的貢獻而獲得許多奬勵,包括ACM SIGKDD創新奬(2004)、IEEE計算機學會技術成就奬(2005)和IEEE W.Wallace McDowell奬(2009)。他是ACM和IEEE會士。他還擔任《ACM Transactions on Knowledge Discovery from Data》的執行主編(2006—2011)和許多雜誌的編委,包括《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining Knowledge Discovery》。


  Micheline Kamber,由加拿大魁北剋濛特利爾Concordia大學獲計算機科學(人工智能專業)碩士學位。她曾是NSERC學者,作為研究者在McGill大學、西濛-弗雷澤大學和瑞士工作。她的數據挖掘背景和以易於理解的形式寫作的熱情使得本書更受專業人員、教師和學生的歡迎。

  Jian Pei(裴健),現在是西濛-弗雷澤大學計算機科學學院教授。他在Jiawei Han的指導下,於2002年獲西濛-弗雷澤大學計算科學博士學位。他在數據挖掘、數據庫、Web搜索和信息檢索的主要學術論壇發錶瞭大量文章,並積極服務於學術團體。他的文章被引用數韆次,並獲多次榮譽奬。他是多種數據挖掘和數據分析雜誌的助理編輯。

2016年8月作為首席數據科學傢加入華為;2017年調入雲BU任AI首席科學傢;自2004年起在加拿大Simon Fraser University計算科學學院任教,曆任助理教授、副教授、教授,曾任學院主管科研和産業閤作的副院長;現兼任統計與精算係及健康科學學院教授,2013-2016年任國際電子電工學會,知識與數據工程學報主編,美國計算機學會會士,國際電子電工學會會士,自2014年起任Canada Research Chair (Tier 1) in Big Data Science 2017年起任美國計算機學會知識發現與數據挖掘專委會(SIGKDD)主席


目錄

齣版者的話
中文版序
譯者序
譯者簡介
第3版序
第2版序
前言
緻謝
作者簡介

第1章 引論
1.1 為什麼進行數據挖掘
1.1.1 邁嚮信息時代
1.1.2 數據挖掘是信息技術的進化
1.2 什麼是數據挖掘
1.3 可以挖掘什麼類型的數據
1.3.1 數據庫數據
1.3.2 數據倉庫
1.3.3 事務數據
1.3.4 其他類型的數據
1.4 可以挖掘什麼類型的模式
1.4.1 類/概念描述:特徵化與區分
1.4.2 挖掘頻繁模式、關聯和相關性
1.4.3 用於預測分析的分類與迴歸
1.4.4 聚類分析
1.4.5 離群點分析
1.4.6 所有模式都是有趣的嗎
1.5 使用什麼技術
1.5.1 統計學
1.5.2 機器學習
1.5.3 數據庫係統與數據倉庫
1.5.4 信息檢索
1.6 麵嚮什麼類型的應用
1.6.1 商務智能
1.6.2 Web搜索引擎
1.7 數據挖掘的主要問題
1.7.1 挖掘方法
1.7.2 用戶界麵
1.7.3 有效性和可伸縮性
1.7.4 數據庫類型的多樣性
1.7.5 數據挖掘與社會
1.8 小結
1.9 習題
1.10 文獻注釋

第2章 認識數據
2.1 數據對象與屬性類型
2.1.1 什麼是屬性
2.1.2 標稱屬性
2.1.3 二元屬性
2.1.4 序數屬性
2.1.5 數值屬性
2.1.6 離散屬性與連續屬性
2.2 數據的基本統計描述
2.2.1 中心趨勢度量:均值、中位數和眾數
2.2.2 度量數據散布:極差、四分位數、方差、標準差和四分位數極差
2.2.3 數據的基本統計描述的圖形顯示
2.3 數據可視化
2.3.1 基於像素的可視化技術
2.3.2 幾何投影可視化技術
2.3.3 基於圖符的可視化技術
2.3.4 層次可視化技術
2.3.5 可視化復雜對象和關係
2.4 度量數據的相似性和相異性
2.4.1 數據矩陣與相異性矩陣
2.4.2 標稱屬性的鄰近性度量
2.4.3 二元屬性的鄰近性度量
2.4.4 數值屬性的相異性:閔可夫斯基距離
2.4.5 序數屬性的鄰近性度量
2.4.6 混閤類型屬性的相異性
2.4.7 餘弦相似性
2.5 小結
2.6 習題
2.7 文獻注釋

第3章 數據預處理
3.1 數據預處理:概述
3.1.1 數據質量:為什麼要對數據預處理
3.1.2 數據預處理的主要任務
3.2 數據清理
3.2.1 缺失值
3.2.2 噪聲數據
3.2.3 數據清理作為一個過程
3.3 數據集成
3.3.1 實體識彆問題
3.3.2 冗餘和相關分析
3.3.3 元組重復
3.3.4 數據值衝突的檢測與處理
3.4 數據歸約
3.4.1 數據歸約策略概述
3.4.2 小波變換
3.4.3 主成分分析
3.4.4 屬性子集選擇
3.4.5 迴歸和對數綫性模型:參數化數據歸約
3.4.6 直方圖
3.4.7 聚類
3.4.8 抽樣
3.4.9 數據立方體聚集
3.5 數據變換與數據離散化
3.5.1 數據變換策略概述
3.5.2 通過規範化變換數據
3.5.3 通過分箱離散化
3.5.4 通過直方圖分析離散化
3.5.5 通過聚類、決策樹和相關分析離散化
3.5.6 標稱數據的概念分層産生
3.6 小結
3.7 習題
3.8 文獻注釋

第4章 數據倉庫與聯機分析處理
4.1 數據倉庫:基本概念
4.1.1 什麼是數據倉庫
4.1.2 操作數據庫係統與數據倉庫的區彆
4.1.3 為什麼需要分離的數據倉庫
4.1.4 數據倉庫:一種多層體係結構
4.1.5 數據倉庫模型:企業倉庫、數據集市和虛擬倉庫
4.1.6 數據提取、變換和裝入
4.1.7 元數據庫
4.2 數據倉庫建模:數據立方體與OLAP
4.2.1 數據立方體:一種多維數據模型
4.2.2 星形、雪花形和事實星座:多維數據模型的模式
4.2.3 維:概念分層的作用
4.2.4 度量的分類和計算
4.2.5 典型的OLAP操作
4.2.6 查詢多維數據庫的星網查詢模型
4.3 數據倉庫的設計與使用
4.3.1 數據倉庫的設計的商務分析框架
4.3.2 數據倉庫的設計過程
4.3.3 數據倉庫用於信息處理
4.3.4 從聯機分析處理到多維數據挖掘
4.4 數據倉庫的實現
4.4.1 數據立方體的有效計算:概述
4.4.2 索引OLAP數據:位圖索引和連接索引
4.4.3 OLAP查詢的有效處理
4.4.4 OLAP服務器結構:ROLAP、MOLAP、HOLAP的比較
4.5 數據泛化:麵嚮屬性的歸納
4.5.1 數據特徵的麵嚮屬性的歸納
4.5.2 麵嚮屬性歸納的有效實現
4.5.3 類比較的麵嚮屬性歸納
4.6 小結
4.7 習題
4.8 文獻注釋

第5章 數據立方體技術
5.1 數據立方體計算:基本概念
5.1.1 立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼
5.1.2 數據立方體計算的一般策略
5.2 數據立方體計算方法
5.2.1 完全立方體計算的多路數組聚集
5.2.2 BUC:從頂點方體嚮下計算冰山立方體
5.2.3 Star-Cubing:使用動態星樹結構計算冰山立方體
5.2.4 為快速高維OLAP預計算殼片段
5.3 使用探索立方體技術處理高級查詢
5.3.1 抽樣立方體:樣本數據上基於OLAP的挖掘
5.3.2 排序立方體:top-k查詢的有效計算
5.4 數據立方體空間的多維數據分析
5.4.1 預測立方體:立方體空間的預測挖掘
5.4.2 多特徵立方體:多粒度上的復雜聚集
5.4.3 基於異常的、發現驅動的立方體空間探查
5.5 小結
5.6 習題
5.7 文獻注釋

第6章 挖掘頻繁模式、關聯和相關性:基本概念和方法
6.1 基本概念
6.1.1 購物籃分析:一個誘發例子
6.1.2 頻繁項集、閉項集和關聯規則
6.2 頻繁項集挖掘方法
6.2.1 Apriori算法:通過限製候選産生發現頻繁項集
6.2.2 由頻繁項集産生關聯規則
6.2.3 提高Apriori算法的效率
6.2.4 挖掘頻繁項集的模式增長方法
6.2.5 使用垂直數據格式挖掘頻繁項集
6.2.6 挖掘閉模式和極大模式
6.3 哪些模式是有趣的:模式評估方法
6.3.1 強規則不一定是有趣的
6.3.2 從關聯分析到相關分析
6.3.3 模式評估度量比較
6.4 小結
6.5 習題
6.6 文獻注釋

第7章 高級模式挖掘
7.1 模式挖掘:一個路綫圖
7.2 多層、多維空間中的模式挖掘
7.2.1 挖掘多層關聯規則
7.2.2 挖掘多維關聯規則
7.2.3 挖掘量化關聯規則
7.2.4 挖掘稀有模式和負模式
7.3 基於約束的頻繁模式挖掘
7.3.1 關聯規則的元規則製導挖掘
7.3.2 基於約束的模式産生:模式空間剪枝和數據空間剪枝
7.4 挖掘高維數據和巨型模式
7.5 挖掘壓縮或近似模式
7.5.1 通過模式聚類挖掘壓縮模式
7.5.2 提取感知冗餘的top-k模式
7.6 模式探索與應用
7.6.1 頻繁模式的語義注解
7.6.2 模式挖掘的應用
7.7 小結
7.8 習題
7.9 文獻注釋

第8章 分類:基本概念
8.1 基本概念
8.1.1 什麼是分類
8.1.2 分類的一般方法
8.2 決策樹歸納
8.2.1 決策樹歸納
8.2.2 屬性選擇度量
8.2.3 樹剪枝
8.2.4 可伸縮性與決策樹歸納
8.2.5 決策樹歸納的可視化挖掘
8.3 貝葉斯分類方法
8.3.1 貝葉斯定理
8.3.2 樸素貝葉斯分類
8.4 基於規則的分類
8.4.1 使用IF-THEN規則分類
8.4.2 由決策樹提取規則
8.4.3 使用順序覆蓋算法的規則歸納
8.5 模型評估與選擇
8.5.1 評估分類器性能的度量
8.5.2 保持方法和隨機二次抽樣
8.5.3 交叉驗證
8.5.4 自助法
8.5.5 使用統計顯著性檢驗選擇模型
8.5.6 基於成本效益和ROC麯綫比較分類器
8.6 提高分類準確率的技術
8.6.1 組閤分類方法簡介
8.6.2 裝袋
8.6.3 提升和AdaBoost
8.6.4 隨機森林
8.6.5 提高類不平衡數據的分類準確率
8.7 小結
8.8 習題
8.9 文獻注釋

第9章 分類:高級方法
9.1 貝葉斯信念網絡
9.1.1 概念和機製
9.1.2 訓練貝葉斯信念網絡
9.2 用後嚮傳播分類
9.2.1 多層前饋神經網絡
9.2.2 定義網絡拓撲
9.2.3 後嚮傳播
9.2.4 黑盒內部:後嚮傳播和可解釋性
9.3 支持嚮量機
9.3.1 數據綫性可分的情況
9.3.2 數據非綫性可分的情況
9.4 使用頻繁模式分類
9.4.1 關聯分類
9.4.2 基於有區彆力的頻繁模式分類
9.5 惰性學習法(或從近鄰學習)
9.5.1 k-最近鄰分類
9.5.2 基於案例的推理
9.6 其他分類方法
9.6.1 遺傳算法
9.6.2 粗糙集方法
9.6.3 模糊集方法
9.7 關於分類的其他問題
9.7.1 多類分類
9.7.2 半監督分類
9.7.3 主動學習
9.7.4 遷移學習
9.8 小結
9.9 習題
9.10 文獻注釋

第10章 聚類分析:基本概念和方法
10.1 聚類分析
10.1.1 什麼是聚類分析
10.1.2 對聚類分析的要求
10.1.3 基本聚類方法概述
10.2 劃分方法
10.2.1 k-均值:一種基於形心的技術
10.2.2 k-中心點:一種基於代錶對象的技術
10.3 層次方法
10.3.1 凝聚的與分裂的層次聚類
10.3.2 算法方法的距離度量
10.3.3 BIRCH:使用聚類特徵樹的多階段聚類
10.3.4 Chameleon:使用動態建模的多階段層次聚類
10.3.5 概率層次聚類
10.4 基於密度的方法
10.4.1 DBSCAN:一種基於高密度連通區域的基於密度的聚類
10.4.2 OPTICS:通過點排序識彆聚類結構
10.4.3 DENCLUE:基於密度分布函數的聚類
10.5 基於網格的方法
10.5.1 STING:統計信息網格
10.5.2 CLIQUE:一種類似於Apriori的子空間聚類方法
10.6 聚類評估
10.6.1 估計聚類趨勢
10.6.2 確定簇數
10.6.3 測定聚類質量
10.7 小結
10.8 習題
10.9 文獻注釋

第11章 高級聚類分析
11.1 基於概率模型的聚類
11.1.1 模糊簇
11.1.2 基於概率模型的聚類
11.1.3 期望最大化算法
11.2 聚類高維數據
11.2.1 聚類高維數據:問題、挑戰和主要方法
11.2.2 子空間聚類方法
11.2.3 雙聚類
11.2.4 維歸約方法和譜聚類
11.3 聚類圖和網絡數據
11.3.1 應用與挑戰
11.3.2 相似性度量
11.3.3 圖聚類方法
11.4 具有約束的聚類
11.4.1 約束的分類
11.4.2 具有約束的聚類方法
11.5 小結
11.6 習題
11.7 文獻注釋

第12章 離群點檢測
12.1 離群點和離群點分析
12.1.1 什麼是離群點
12.1.2 離群點的類型
12.1.3 離群點檢測的挑戰
12.2 離群點檢測方法
12.2.1 監督、半監督和無監督方法
12.2.2 統計方法、基於鄰近性的方法和基於聚類的方法
12.3 統計學方法
12.3.1 參數方法
12.3.2 非參數方法
12.4 基於鄰近性的方法
12.4.1 基於距離的離群點檢測和嵌套循環方法
12.4.2 基於網格的方法
12.4.3 基於密度的離群點檢測
12.5 基於聚類的方法
12.6 基於分類的方法
12.7 挖掘情境離群點和集體離群點
12.7.1 把情境離群點檢測轉換成傳統的離群點檢測
12.7.2 關於情境對正常行為建模
12.7.3 挖掘集體離群點
12.8 高維數據中的離群點檢測
12.8.1 擴充的傳統離群點檢測
12.8.2 發現子空間中的離群點
12.8.3 高維離群點建模
12.9 小結
12.10 習題
12.11 文獻注釋

第13章 數據挖掘的發展趨勢和研究前沿
13.1 挖掘復雜的數據類型
13.1.1 挖掘序列數據:時間序列、符號序列和生物學序列
13.1.2 挖掘圖和網絡
13.1.3 挖掘其他類型的數據
13.2 數據挖掘的其他方法
13.2.1 統計學數據挖掘
13.2.2 關於數據挖掘基礎的觀點
13.2.3 可視和聽覺數據挖掘
13.3 數據挖掘應用
13.3.1 金融數據分析的數據挖掘
13.3.2 零售和電信業的數據挖掘
13.3.3 科學與工程數據挖掘
13.3.4 入侵檢測和預防數據挖掘
13.3.5 數據挖掘與推薦係統
13.4 數據挖掘與社會
13.4.1 普適的和無形的數據挖掘
13.4.2 數據挖掘的隱私、安全和社會影響
13.5 數據挖掘的發展趨勢
13.6 小結
13.7 習題
13.8 文獻注釋
參考文獻
索引

精彩書摘

  第1章 引論
  本書是一個導論,介紹一個年青並且快速成長的領域——數據挖掘(又稱從數據中發現知識,簡稱KDD)。本書關注從各種各樣的應用數據中發現有趣數據模式的數據挖掘基本概念和技術,特彆是那些開發有效的、可伸縮的數據挖掘工具的卓越技術。
  本章組織如下:在1.1節,我們將學習為什麼需要數據挖掘和數據挖掘如何成為信息技術自然進化的一部分。1.2節從知識發現過程定義數據挖掘。之後,我們將從各種角度學習數據挖掘,如可供挖掘的數據(1.3節),可以發現的模式(1.4節),所使用的技術(1.5節),以及應用(1.6節)。這樣,你將獲得數據挖掘的多維視圖。最後,1.7節概述數據挖掘研究和發展的主要問題。
  1.1 為什麼進行數據挖掘
  需要是發明之母。——柏拉圖
  我們生活在大量數據日積月纍的年代。分析這些數據是一種重要需求。1.1.1節考察數據挖掘如何通過提供從數據中發現知識的工具來滿足這種需求。在1.1.2節,我們觀察數據挖掘為何被視為信息技術的自然進化的結果。
  1.1.1 邁嚮信息時代
  一種流行的說法是“我們生活在信息時代”。然而,實際上我們生活在數據時代。每天,來自商業、社會、科學和工程、醫學以及我們日常生活的方方麵麵的數兆兆字節(Tera-Byte,TB)或數韆兆兆字節(Peta-Byte,PB)�〉氖�據注入我們的計算機網絡、萬維網和各種數據存儲設備。1可用數據的爆炸式增長是我們的社會計算機化和功能強大的數據收集和存儲工具快速發展的結果。世界範圍的商業活動産生瞭巨大的數據集,包括銷售事務、股票交易記錄、産品描述、促銷、公司利潤和業績以及顧客反饋。例如,像沃爾瑪這樣的大型商場遍及世界各地的數以韆計的超市每周都要處理數億交易。科學和工程實踐持續不斷地從遙感、過程測量、科學實驗、係統實施、工程觀測和環境監測中産生多達數韆兆兆字節的數據。
  ……

前言/序言

  社會的計算機化顯著地增強瞭我們産生和收集數據的能力。大量數據從我們生活的每個角落湧齣。存儲的或瞬態的數據的爆炸性增長已激起對新技術和自動工具的需求,以幫助我們智能地將海量數據轉換成有用的信息和知識。這導緻稱做數據挖掘的一個計算機科學前沿學科的産生,這是一個充滿希望和欣欣嚮榮並具有廣泛應用的學科。數據挖掘通常又稱為數據中的知識發現(KDD),是自動地或方便地提取代錶知識的模式;這些模式隱藏在大型數據庫、數據倉庫、Web、其他大量信息庫或數據流中。
  本書考察知識發現和數據挖掘的基本概念和技術。作為一個多學科領域,數據挖掘從多個學科汲取營養。這些學科包括統計學、機器學習、模式識彆、數據庫技術、信息檢索、網絡科學、知識庫係統、人工智能、高性能計算和數據可視化。我們提供發現隱藏在大型數據集中的模式的技術,關注可行性、有用性、有效性和可伸縮性問題。因此,本書不打算作為數據庫係統、機器學習、統計學或其他某領域的導論,盡管我們確實提供瞭這些領域的必要背景材料,以便讀者理解它們各自在數據挖掘中的作用。本書是對數據挖掘的全麵介紹。對於計算科學的學生、應用開發人員、行業專業人員以及涉及以上列舉的學科的研究人員,本書應當是有用的。
  數據挖掘齣現於20世紀80年代後期,20世紀90年代有瞭突飛猛進的發展,並可望在新韆年繼續繁榮。本書全麵展示該領域,介紹有趣的數據挖掘技術和係統,並討論數據挖掘的應用和研究方嚮。寫本書的重要動機是需要建立一個學習數據挖掘的有組織的框架——由於這個快速發展領域的多學科特點,這是一項具有挑戰性的任務。我們希望本書有助於具有不同背景和經驗的人交換關於數據挖掘的見解,為進一步促進這個令人激動的、不斷發展的領域的成長做齣貢獻。
  本書的組織
  自本書第1版、第2版齣版以來,數據挖掘領域已經取得瞭重大進展,開發齣瞭許多新的數據挖掘方法、係統和應用,特彆是對於處理包括信息網絡、圖、復雜結構和數據流,以及文本、Web、多媒體、時間序列、時間空間數據在內的新的數據類型。這種快速發展、新技術不斷湧現使得在一本書中涵蓋整個領域的廣泛內容非常睏難。因此,我們決定與其繼續擴大本書的涵蓋麵,還不如讓本書以足夠的廣度和深度涵蓋該領域的核心內容,而把復雜數據類型的處理留給另一本即將麵世的書。
  第3版對本書的前兩版做瞭全麵修訂,加強和重新組織瞭全書的技術內容,顯著地擴充和加強處理一般數據類型挖掘的核心技術。第2版中討論特定主題的章節(例如,數據預處理、頻繁模式挖掘、分類和聚類)在這一版都被擴充,每章都分成兩章。對於這些主題,一章囊括基本概念和技術,而另一章提供高級概念和方法。
  第2版關於復雜數據類型的章節(例如,流數據、序列數據、圖結構數據、社會網絡數據和多重關係數據,以及文本、Web、多媒體和時間空間數據)現在保留給專門介紹數據挖掘的高級課題的新書。為瞭支持讀者學習這些高級課題,我們把第2版的相關章節的電子版放在本書的網站上,作為第3版的配套材料。
  第3版各章的簡要內容如下(重點介紹新的內容):
  第1章提供關於數據挖掘的多學科領域的導論。該章討論導緻需要數據挖掘的數據庫技術的發展曆程和數據挖掘應用的重要性。該章考察挖掘的數據類型,包括關係的、事務的和數據倉庫數據,以及復雜的數據類型,如時間序列、序列、數據流、時間空間數據、多媒體數據、文本數據、圖、社會網絡和Web數據。該章根據所挖掘的知識類型、所使用的技術以及目標應用的類型,對數據挖掘任務進行瞭一般分類。最後討論該領域的主要挑戰。
  第2章介紹一般數據特徵。該章首先討論數據對象和屬性類型,然後介紹基本統計數據描述的典型度量。該章概述各種類型數據的數據可視化技術。除瞭數值數據的可視化方法外,還介紹文本、標簽、圖和多維數據的可視化方法。第2章還介紹度量各種類型數據的相似性和相異性的方法。
  第3章介紹數據預處理技術。該章首先介紹數據質量的概念,然後討論數據清理、數據集成、數據歸約、數據變換和數據離散化的方法。
  第4章和第5章是數據倉庫、OLAP(聯機分析處理)和數據立方體技術的引論。第4章介紹數據倉庫和OLAP的基本概念、建模、結構、一般實現,以及數據倉庫和其他數據泛化的關係。第5章更深入地考察數據立方體技術,詳細地研究數據立方體的計算方法,包括Star-Cubing和高維OLAP方法。該章還討論數據立方體和OLAP技術的進一步研究,如抽樣立方體、排序立方體、預測立方體、用於復雜數據挖掘查詢的多特徵立方體和發現驅動的數據立方體的探查。
  第6章和第7章介紹挖掘大型數據集中的頻繁模式、關聯和相關性的方法。第6章介紹基本概念,如購物籃分析,還有條理地提供瞭許多頻繁項集挖掘技術。這些涵蓋從基本Apriori算法和它的變形,到改進性能的更高級的方法,包括頻繁模式增長方法,使用數據的垂直形式的頻繁模式挖掘,挖掘閉頻繁項集和極大頻繁項集。該章還討論模式評估方法並介紹挖掘相關模式的度量。第7章介紹高級模式挖掘方法。該章討論多層和多維空間中的模式挖掘,挖掘稀有和負模式,挖掘巨型模式和高維空間數據,基於約束的模式挖掘和挖掘壓縮或近似模式。該章還介紹模式探查和應用的方法,包括頻繁模式的語義注解。
  第8章和第9章介紹數據分類方法。由於分類方法的重要性和多樣性,內容被劃分成兩章。第8章介紹分類的基本概念和方法,包括決策樹歸納、貝葉斯分類和基於規則的分類。該章還討論模型評估和選擇方法,以及提高分類準確率的方法,包括組閤方法和處理不平衡數據。第9章討論分類的高級方法,包括貝葉斯信念網絡、後嚮傳播的神經網絡技術、支持嚮量機、使用頻繁模式的分類、k-最鄰近分類、基於案例的推理、遺傳算法、粗糙集理論和模糊集方法。附加的主題包括多類分類、半監督分類、主動學習和遷移學習。
  聚類分析是第10章和第11章的主題。第10章介紹數據聚類的基本概念和方法,包括基本聚類分析方法的概述、劃分方法、層次方法、基於密度的方法和基於網格的方法。該章還介紹聚類評估方法。第11章討論聚類的高級方法,包括基於概率模型的聚類、聚類高維數據、聚類圖和網絡數據,以及基於約束的聚類。
  第12章專門討論離群點檢測。本章介紹離群點的基本概念和離群點分析,並從各種監督力度(監督的、半監督的和無監督的)以及方法角度(統計學方法、基於鄰近性的方法、基於聚類的方法和基於分類的方法)討論離群點檢測方法。該章還討論挖掘情境離群點和集體離群點,以及高維數據中的離群點檢測。
  最後,在第13章我們討論數據挖掘的趨勢、應用和研究前沿。我們簡略地介紹挖掘復雜數據類型,包括挖掘序列數據(例如,時間序列、符號序列和生物學序列),挖掘圖和網絡,以及挖掘空間、多媒體、文本和Web數據。這些數據挖掘方法的深入討論留給正在撰寫的數據挖掘高級課題一書。然後,該章轉嚮討論其他數據挖掘方法學,包括統計學數據挖掘、數據挖掘基礎、可視和聽覺數據挖掘,以及數據挖掘的應用。討論數據挖掘在金融數據分析、零售和電信産業、科學與工程,以及入侵檢測和預防方麵的應用。該章還討論數據挖掘與推薦係統的聯係。由於數據挖掘齣現在我們日常生活的方方麵麵,所以我們討論數據挖掘與社會,包括無處不在和無形的數據挖掘,以及隱私、安全和數據挖掘對社會的影響。我們用考察數據挖掘的發展趨勢結束本書。
  書中楷體字用於強調定義的術語,而黑體字用於突齣主要思想。
  本書與其他數據挖掘教材相比具有一些顯著特點:它廣泛、深入地討論瞭數據挖掘原理。各章盡可能是自包含的,使得讀者可以按自己感興趣的次序閱讀。高級章節提供瞭更大的視野,感興趣的讀者可以選讀。本書提供瞭數據挖掘的所有主要方法,還提供瞭關於多維OLAP分析等數據挖掘的重要主題,這些主題在其他書中常常被忽略或很少提及。本書還維護瞭一個網站,其中包含大量在綫資源,為教師、學生和該領域的專業人員提供支持。這些將在下麵介紹。
  緻教師
  本書旨在提供數據挖掘領域的一個廣泛而深入的概覽,可以作為高年級本科生或一年級研究生的數據挖掘導論。除瞭講稿、教師指南和閱讀材料列錶等教學資源之外,本書網站還提供瞭一個樣本課程安排。
  根據授課學時、學生的背景和你的興趣,你可以選取章節的子集,以不同的順序進行講授。例如,如果你隻打算給學生講授數據挖掘入門導論,可以按照圖P.1的建議。注意,根據需要,必要時可以省略其中某些節或某些小節。
  圖P.1 入門導論課程的建議章節序列
  根據學時和講授範圍,你可以有選擇地把更多的章節增加到這個基本序列中。例如,對高級分類方法更感興趣的教師可以首先增加“第9章 分類:高級方法”;對模式挖掘更感興趣的教師可以選擇包括“第7章 高級模式挖掘”;而對OLAP和數據立方體技術感興趣的教師可以增加“第4章 數據倉庫與聯機分析處理”和“第5章 數據立方體技術”。
  或者,你可以選擇在兩個學期的係列課程中講授整本書,包括本書的所有章節,時間允許的話,加上圖和網絡挖掘這樣的高級課題。這些高級課題可以從本書網站提供的配套材料選擇,輔以挑選的研究論文。
  本書的每一章都可以用做自學材料,或者用做數據庫係統、機器學習、模式識彆和數據智能分析等相關課程的專題。
  每章後麵都有一些習題,適閤作為傢庭作業。這些習題或者是用於測驗對內容的掌握情況的小問題,或者是需要分析思考的大問題,或者是實現設計。有些習題也可以用做研究討論課題。每章後麵的文獻注釋可以用來查找包含正文中提供的概念和方法的來源、相關課題的深入討論和可能的擴展的研究文獻。
  緻學生
  我們希望本書將激發你對年青,但正在快速發展的數據挖掘領域的興趣。我們試圖以清晰的方式提供材料,仔細地解釋所涵蓋的主題。每一章後麵都附有一個小結,總結要點。全書包含瞭許多圖和解釋,以便使本書更加有趣和便於閱讀。盡管本書是作為教材編寫的,但是我們也試圖把它組織成一本有用的參考書或手冊,以有助於你今後在數據挖掘方麵進行深入研究和求職。
  為閱讀本書,你需要知道什麼?
  ·你應當具有關於統計學、數據庫係統和機器學習的概念和術語方麵的知識。然而,我們盡力提供這些基礎知識的足夠背景,以便在讀者對這些領域不太熟悉或者記憶有些淡忘時,也能夠理解本書的討論。
  ·你應當具有一些程序設計經驗。特彆是你應當能夠閱讀僞代碼,能夠理解像多維數組這樣的簡單數據結構。




《信息時代的洞察之鑰:數據科學的理論與實踐》 在信息爆炸的時代,數據已成為驅動決策、預測趨勢、優化流程的關鍵要素。理解數據背後的深層含義,並將其轉化為可行的商業洞察或科學發現,已經成為各行各業的核心競爭力。《信息時代的洞察之鑰:數據科學的理論與實踐》正是一本旨在為你解鎖數據潛能、掌握數據科學核心能力的著作。本書並非對某一特定領域的照搬,而是深入淺齣地解析數據科學這一多學科交叉領域的理論基石、核心方法與實際應用。 本書的獨特之處在於,它以一種係統性的、由淺入深的方式,帶領讀者穿越數據科學的廣闊天地。我們不再局限於零散的工具或特定算法的介紹,而是著眼於構建一個完整的知識體係。從數據的本質、收集、清洗到模型構建、評估與部署,本書將為你提供一條清晰的學習路徑,讓你能夠融會貫通,觸類旁通。 第一部分:數據科學的基石——理解數據的本質與獲取 在任何數據科學項目伊始,對數據的深刻理解是至關重要的。本部分將首先探討數據的多樣性與復雜性,包括結構化數據、半結構化數據和非結構化數據。我們將深入分析不同類型數據的特點、潛在的挑戰以及如何對其進行初步的探索性分析(EDA)。這不僅僅是關於“看”數據,更是關於“理解”數據。你將學習如何識彆數據中的噪聲、缺失值、異常值,以及這些問題對後續分析可能造成的嚴重影響。 接著,本書將聚焦於數據的獲取與預處理。在這個數據源日益豐富的時代,掌握從各種渠道收集數據的策略至關重要。我們將介紹數據庫查詢、API接口、網絡爬蟲等技術,並強調數據采集過程中的倫理與法律考量。而數據預處理,這一被許多人忽視但至關重要的環節,將在本書中得到重點闡述。你將學習如何進行數據清洗,包括處理缺失值(如插值、刪除)、異常值檢測與處理(如箱綫圖、Z-score)、數據平滑、數據規範化與標準化等。同時,我們還將探討數據轉換技術,例如特徵縮放、數值編碼(如獨熱編碼、標簽編碼)、離散化等,這些技術能夠有效地提升模型的性能和穩定性。 第二部分:探索數據間的奧秘——模式識彆與關聯分析 數據的價值在於其隱藏的規律和模式。本部分將帶領讀者進入數據探索的核心領域,重點關注如何發現數據中的有趣關聯和潛在模式。我們將從描述性統計入手,迴顧均值、方差、中位數、百分位數等基本統計量,並介紹可視化技術,如散點圖、直方圖、箱綫圖、熱力圖等,它們是揭示數據分布、變量間關係以及異常點的強大工具。 更進一步,本書將深入講解關聯規則挖掘。我們將解析支持度、置信度、提升度等關鍵指標,並介紹Apriori、FP-growth等經典算法。你將學會如何從海量交易數據中挖掘齣“購買瞭A商品的用戶也傾嚮於購買B商品”這類有價值的關聯信息,這對於零售業的商品推薦、交叉銷售策略製定具有直接的指導意義。此外,我們還將探討如何發現數據中的有趣模式,例如序列模式挖掘,它能夠揭示事件發生的時間順序規律,在用戶行為分析、網頁點擊流分析中大顯身手。 第三部分:構建預測模型——機器學習的理論與實踐 機器學習是數據科學的核心驅動力之一,它賦予瞭計算機從數據中學習並做齣預測或決策的能力。本部分將係統地介紹各類主流的機器學習算法。我們將從監督學習開始,詳細講解迴歸模型(如綫性迴歸、多項式迴歸)和分類模型(如邏輯迴歸、決策樹、支持嚮量機、K近鄰)。對於每種算法,我們都將深入剖析其背後的數學原理、工作機製、優缺點以及適用場景。 本書不會止步於理論介紹,更會強調實踐的重要性。我們將引導讀者如何選擇閤適的模型,如何進行模型訓練、參數調優,以及如何評估模型的性能(如準確率、精確率、召迴率、F1分數、AUC等)。交叉驗證、過擬閤與欠擬閤的識彆與處理等模型評估與改進的關鍵技術也將得到詳細的講解。 在無監督學習方麵,本書將重點介紹聚類分析,如K-Means、層次聚類等。你將學會如何將相似的數據點分組,從而發現數據內在的結構,例如客戶細分、圖像分割等。降維技術,如主成分分析(PCA)、t-SNE等,也將被詳細介紹,它們能夠幫助我們處理高維數據,減少冗餘,並可視化復雜的數據集。 第四部分:挖掘數據中的隱藏信息——高級分析技術與應用 除瞭基礎的預測模型,數據科學還包含許多能夠揭示數據深層洞察的高級技術。本部分將介紹文本挖掘、網絡分析以及時間序列分析等領域。 文本挖掘是處理和分析非結構化文本數據的關鍵。你將學習如何進行文本預處理(如分詞、去除停用詞、詞乾提取)、特徵提取(如詞袋模型、TF-IDF)以及情感分析、主題建模等技術,從而從海量文本中提取有價值的信息,例如用戶評論的情感傾嚮、新聞報道的主題分布等。 網絡分析則專注於研究實體之間的關係。本書將介紹圖論的基本概念,以及如何構建和分析網絡,如節點中心性、社區檢測等。這在社交網絡分析、推薦係統、欺詐檢測等領域有著廣泛的應用。 時間序列分析是處理隨時間變化的數據的重要方法。你將學習如何識彆時間序列的趨勢、季節性、周期性,並掌握ARIMA、指數平滑等經典模型,用於預測未來的數值,例如股票價格預測、銷售量預測等。 第五部分:將數據洞察轉化為行動——模型部署與倫理考量 構建齣優秀的數據模型隻是數據科學流程的中間環節,最終的價值體現在將模型部署到實際應用中,並持續監控其錶現。本部分將探討模型部署的策略,包括如何將模型集成到現有的軟件係統或業務流程中。我們還將討論模型的可解釋性問題,理解模型做齣決策的原因,對於建立信任和進行有效的溝通至關重要。 最後,本書將高度重視數據科學實踐中的倫理和社會影響。我們將討論數據隱私保護、算法的公平性與偏見、以及數據驅動決策可能帶來的社會責任。掌握數據科學技術的同時,也肩負著負責任地使用這些技術的使命。 《信息時代的洞察之鑰:數據科學的理論與實踐》是一本麵嚮所有希望深入理解數據、掌握數據分析與建模技能的讀者。無論你是學生、研究人員,還是希望在工作中應用數據科學的專業人士,本書都將為你提供一套係統、全麵、深入的學習體驗,助你在數據驅動的時代乘風破浪,發現數據中蘊藏的無限可能。它不僅僅是一本書,更是你通往數據科學世界的指南,是你挖掘信息時代寶藏的得力工具。

用戶評價

評分

這本《數據挖掘:概念與技術》(原書第3版)簡直是數據從業者們的“聖經”!作為一名在行業內摸爬滾打多年的數據分析師,我深知理論與實踐的脫節是多麼令人頭疼。市麵上很多書要麼過於理論化,要麼過於案例化,很少有能像這本書這樣,將深厚的理論基礎與豐富的實踐指導完美結閤。我非常欣賞作者在介紹各種挖掘算法時,不僅給齣瞭清晰的數學描述,更重要的是,詳細闡述瞭每種算法的優缺點、適用場景以及背後的直觀理解。比如,在講到決策樹時,書中不僅提到瞭ID3、C4.5、CART等經典算法,還深入分析瞭剪枝技術、多叉決策樹等優化方法,並給齣瞭何時選擇哪種樹形結構的指導。這對於我們這些需要根據具體業務場景選擇最閤適模型的人來說,簡直是金玉良言。更讓我驚喜的是,書中並沒有止步於算法本身,而是花瞭大篇幅討論瞭數據挖掘過程中的挑戰,例如數據不平衡、高維數據處理、模型的可解釋性等,並提供瞭相應的解決方案。例如,在講到分類問題時,除瞭介紹常見的分類器,還詳細探討瞭如何處理類彆不平衡的數據集,以及如何評估模型在不平衡數據集上的性能。這種對細節的關注和對實際問題的深入剖析,讓這本書的實用性大大提升,我完全可以將書中的很多思路直接應用到我的工作中。

評分

作為一名對人工智能領域充滿好奇的非技術背景讀者,我一直想找到一本能夠幫助我理解數據挖掘核心概念的書。《數據挖掘:概念與技術》(原書第3版)無疑滿足瞭我的需求,而且遠超預期。這本書的敘述風格非常引人入勝,它沒有使用大量晦澀難懂的專業術語,而是通過清晰的邏輯和生動的比喻,將復雜的概念解釋得淺顯易懂。我尤其欣賞作者在講解“關聯規則挖掘”時,沒有直接拋齣算法,而是先從日常生活中“如果你買瞭啤酒,你可能也會買尿布”這樣的例子入手,引齣瞭“啤酒與尿布”的經典案例,然後再逐步引入 Apriori 算法的原理。這種循序漸進的學習路徑,讓我這個初學者也能輕鬆理解那些看似高深的算法。書中還特彆強調瞭數據挖掘的“技術”與“概念”之間的聯係,它不隻是羅列算法,更重要的是解釋瞭這些算法背後的思想和原理。比如,在介紹“分類”這一主題時,書中不僅講解瞭各種分類算法,更深入探討瞭特徵選擇、過擬閤等關鍵問題,並給齣瞭相應的解決方案。這本書讓我明白,數據挖掘並非一蹴而就,而是需要綜閤運用多種技術和策略來解決問題。

評分

這本書絕對是我近期閱讀中最具啓發性的一本。作為一名剛剛接觸數據科學領域的學生,我一直對那些看似“神奇”的數據分析方法感到好奇,但又缺乏係統性的理解。《數據挖掘:概念與技術》(原書第3版)恰恰填補瞭我的知識空白。書中沒有直接給我一堆堆枯燥的算法公式,而是從數據挖掘的宏觀概念入手,循序漸進地介紹瞭不同階段的任務,比如數據預處理、數據集成、數據變換、模式挖掘、分類、聚類、關聯規則以及異常檢測等等。我尤其喜歡書中對各個概念的生動解釋,以及通過大量實際案例來展示這些概念的應用。例如,在講到關聯規則時,作者並非僅僅列齣Apriori算法,而是結閤超市購物籃分析的經典案例,詳細解釋瞭“支持度”、“置信度”和“提升度”這些度量的意義,讓我瞬間明白瞭為什麼“買瞭尿布的顧客往往也會買啤酒”。這種由淺入深、由概念到實踐的講解方式,極大地降低瞭學習門檻,讓我這個新手也能 confidently 地理解那些復雜的原理。此外,書中對數據挖掘過程的整體性描述也讓我受益匪淺,它強調瞭數據挖掘並非孤立的算法應用,而是需要貫穿數據收集、理解、準備、建模、評估和部署的完整流程。這種全局觀讓我不再拘泥於單一技術,而是開始思考如何將不同的技術融會貫通,解決實際問題。

評分

在我看來,《數據挖掘:概念與技術》(原書第3版)是一本兼具深度和廣度的百科全書式的著作。它係統地梳理瞭數據挖掘的整個流程,從數據的獲取、清洗、預處理,到各種挖掘技術的介紹,再到模型評估和結果的解釋,幾乎涵蓋瞭數據挖掘領域的方方麵麵。我非常喜歡書中對“數據預處理”的詳細闡述,這部分內容往往在其他教材中被一筆帶過,但實際上卻是數據挖掘中最耗時也最關鍵的環節。書中詳細介紹瞭如何處理缺失值、噪聲數據、如何進行數據變換和規約,以及如何處理類彆型數據和數值型數據,並給齣瞭大量的實用技巧。這對於任何一個從事數據分析工作的人來說,都是極其寶貴的經驗。此外,書中對“聚類分析”和“異常檢測”的講解也給我留下瞭深刻印象。作者並沒有簡單地介紹 K-means 或 DBSCAN 等算法,而是深入探討瞭不同聚類方法的優缺點、適用場景,以及如何選擇閤適的聚類數量。在異常檢測方麵,書中也提供瞭多種方法,並分析瞭它們在不同類型異常檢測任務中的錶現。總而言之,這本書為我構建瞭一個全麵而紮實的數據挖掘知識體係,讓我能夠更有信心地應對實際工作中的各種數據挑戰。

評分

說實話,在拿到《數據挖掘:概念與技術》(原書第3版)之前,我對“數據挖掘”這個詞的理解還停留在“從大量數據裏找齣有用的信息”這麼一個模糊的層麵。這本書徹底改變瞭我的認知。它不僅僅是關於技術,更是一種思維方式的引導。書中將數據挖掘的過程分解成瞭一個個清晰的階段,並且在每個階段都給齣瞭詳實的解釋和具體的例子。我特彆喜歡作者在講解“數據探索與可視化”部分時的處理方式,它強調瞭在正式建模之前,充分理解數據的重要性。書中列舉瞭多種可視化技術,比如散點圖、直方圖、箱綫圖等,並且說明瞭這些圖錶如何幫助我們發現數據中的趨勢、模式、異常值以及變量之間的關係。這讓我意識到,數據分析的第一步,絕不是急於套用算法,而是要學會“讀懂”你的數據。此外,書中關於“模型評估與選擇”的部分也讓我大開眼界。我之前一直對各種模型的評估指標感到睏惑,比如準確率、精確率、召迴率、F1分數等等,不知道在什麼情況下應該關注哪個指標。這本書用非常直觀的方式解釋瞭這些指標的含義,並且提供瞭如何根據實際問題來選擇最閤適的評估指標的指導。這讓我明白,一個好的模型,不僅僅是預測準確,更重要的是能夠為業務帶來價值。

評分

還沒時間看,書不錯

評分

啊啊啊啊啊啊啊啊啊

評分

很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!很好!

評分

……

評分

有點兒高深 不過可以慢慢看

評分

還可以還可以,不錯不錯,蠻好蠻好

評分

買重復瞭怎麼辦啊啊啊

評分

書是挺專業~不過買瞭之後就當擺設瞭~

評分

書的印刷很好,很適閤學習,讀書使人進步

相關圖書

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有