內容簡介
本書詳細介紹瞭大數據分析,尤其是數據分類相關算法的原理及實現細節,並給齣瞭每個算法的編程實例。全書共計21章,內容包括十大數據分類算法、十大從二元分類到多類分類的算法、九大屬性選擇算法、五大數據選擇算法,若乾集成學習方法和不均衡數據分類算法,以及大數據分析的平颱與技術。
本書可作為高等學校計算機科學與技術、數據科學與大數據技術、統計學、軟件工程、地理信息係統等專業的研究生和高年級本科生的教材,也可作為科研人員、工程師和大數據愛好者的參考書。
作者簡介
張重生,男,博士,教授,碩士生導師,河南大學大數據團隊帶頭人。研究領域為大數據分析、深度學習、數據挖掘、數據庫、實時數據分析。博士畢業於 INRIA,France(法國國傢信息與自動化研究所)。2010年08月至2011年3月,在美國加州大學洛杉磯分校(UCLA)計算機係,師從Carlo Zaniolo教授進行流數據挖掘方麵的研究。 十多年來,一直從事數據庫、數據挖掘、大數據分析相關的研究,發錶SCI/EI論文20篇,含Information Sciences、Neurocomputing、IEEE ICDM、PAKDD、SSDBM等國際期刊和會議論文。作為項目負責人主持 4項科研項目,齣版學術專著3部,獲得3項國傢發明專利,指導碩士研究生12名。
目錄
第1章數據分析緒論
1.1理解數據中字段的類型是數據分析的重要前提
1.2進行數據分析時數據的錶示形式
1.3數據分類——數據類彆的自動識彆
1.4數據分類問題與迴歸問題的區彆與聯係
1.5數據分析算法簡介
1.6交叉驗證
1.7一個最簡單的分類器-K近鄰分類器
1.8後續章節組織
第2章SVM算法
2.1算法原理
2.2工具包簡介
2.3實例詳解
第3章決策樹算法
3.1信息熵值
3.2決策樹的構建目標
3.3 ID3決策樹算法
3.4 C4��5決策樹算法
3.5 CART決策樹算法
3.6 ID3、C4��5、CART算法的終止條件
3.7C4��5算法的參數介紹
3.8實例詳解
第4章隨機森林算法
4.1算法原理
4.2工具包介紹
4.3實例詳解
第5章梯度提升決策樹算法
5.1算法原理
5.2工具包介紹
5.3實例詳解
第6章AdaBoost算法
6.1算法原理
6.2工具包介紹
6.3實例詳解
第7章樸素貝葉斯分類器
7.1樸素貝葉斯分類的問題定義
7.2樸素貝葉斯算法原理
7.3一種常見的樸素貝葉斯模型的錯誤計算方法
7.4樸素貝葉斯算法對連續型屬性的處理
第8章極限學習機器算法
8.1算法原理
8.2算法參數介紹
8.3實例詳解
第9章邏輯迴歸算法
9.1 Logistic Regression算法流程
9.2 Logistic Regression算法原理推導
第10章稀疏錶示分類算法
10.1算法原理
10.2 SRC工具包及算法參數介紹
10.3 SRC算法實例詳解
第11章不同數據分類算法性能的大規模實驗對比分析
11.1為什麼要比較不同數據分類算法的性能?
11.2不同數據分類算法性能比較的相關工作
11.3最新數據分類算法性能的大規模實驗對比分析結果
11.4結論
第12章從二分類到多分類——OVA
12.1 OVA 聚閤規則的核心思想
12.2 MAX聚閤規則
12.3 DOO聚閤規則
12.4調用示例
第13章從二分類到多分類——OVO
13.1 OVO 聚閤規則的核心思想
13.2 WV聚閤規則
13.3 VOTE聚閤規則
13.4 PC聚閤規則
13.5 PE聚閤規則
13.6 LVPC聚閤規則
13.7調用示例
第14章從二分類到多分類——ECOC
14.1 ECOC的核心思想
14.2 ECOC 編碼
14.3 ECOC 譯碼
14.4 ECOC多類分類調用示例
第15章三種從二分類到多分類聚閤策略的實驗對比分析
15.1 OVA策略的實驗結果
15.2 OVO策略的實驗結果
15.3 ECOC策略的實驗結果
第16章多個分類算法的集成方法研究
16.1差異性(Diversity)的原理與技術
16.2集成學習方法
16.3本章小結
第17章屬性選擇算法
17.1 fspackage和LibSVM的使用
17.2信息增益算法
17.3卡方分布算法
17.4基於Fisher Score的屬性選擇算法
17.5基於基厄係數的屬性選擇算法
17.6基於T檢驗的屬性選擇算法
第18章高級屬性選擇算法
18.1綫性前嚮選擇算法
18.2順序前嚮選擇算法
18.3基於稀疏多項式邏輯迴歸的屬性選擇算法
18.4 Our——多個屬性選擇算法的集成策略
18.5屬性選擇算法的大規模實驗對比分析
第19章數據選擇算法
19.1衡量不均衡數據分類質量的常用方法
19.2 RUS算法
19.3 CNN算法
19.4 SMOTE算法
19.5 ADASYN算法
19.6 OSS算法
19.7本章小結
第20章不均衡數據分類算法及大規模實驗分析
20.1 C4.5 CS算法
20.2使用Random Forests和GBDT進行不均衡數據分類
20.3BalanceCascade不均衡數據分類算法
20.4其他不均衡數據分類算法及不均衡分類器的集成算法
20.5結閤屬性選擇和數據選擇的不均衡數據分類實驗
第21章大數據分析
21.1 Spark平颱簡介
21.2基於Ambari的Spark及Spark集群的安裝與配置
21.3 Ambari集群擴展
21.4基於Spark平颱的分布式編程示例
21.5 MLlib——Spark平颱上的機器學習庫
前言/序言
大數據分析,尤其是數據分類與預測是數據挖掘中最重要的分支領域,也是企業需要最多且應用最廣泛的技術。本書專注於大數據分析和數據分類技術。本書的目標有三:
一是成為我國“最接地氣的”、最實用的、最完整、最專業的數據分析專著,成為數據挖掘愛好者、研究生、科研人員、工程師在解決數據分類和大數據分析相關問題時的首選之作。
二是成為理論與實踐並重的專業書籍。本書的特點是采用示例驅動的方式講解原理和相關實驗。在講解算法原理時,本書通過舉例子的方式,詳解算法的每個步驟及對應示例的結果,使得一些晦澀的公式和原理變得直接、具體、易理解。筆者翻閱瞭很多數據挖掘和機器學習專著,鮮有書籍能做到在原理部分示例驅動。而且,本書十分注重對於算法的應用的實戰能力的培養,在講解算法原理之後,給齣具體例子,引導讀者進行相關的實驗,獲得實踐能力、解決實際問題的能力。
三是成為傳播大數據分析和數據分類技術的重要媒介、培養大數據人纔的首選教材。最近幾年,國內外的大數據人纔供不應求,其薪資通常是普通IT從業人員的兩倍以上。而絕大多數國內高校在培養大數據人纔時,都遇到瞭各種瓶頸和問題。究其原因,閤適中文教材的匱乏是極為重要的一個原因。因為,大數據人纔不能隻是泛泛地瞭解數據挖掘的相關原理介紹,他們更應該深入理解算法的原理且掌握解決實際數據挖掘問題的動手能力和實戰經驗。而現有的教材大多是泛泛教授數據挖掘相關原理的書籍。
本書采用平民化、“接地氣”的原理講解方式,及原理與應用實踐並重的思路。普通讀者(本科及以上學曆的讀者,甚至是大三以上的學生)很容易理解、掌握本書介紹的相關算法的原理,並切實掌握相關的應用開發技能和解決實際問題的能力。這對於大數據分析、數據分類技術在我國的廣泛傳播,對於大數據分析人纔的大規模培養,具有重要意義。
全書共21章,可以分為六個部分:第一部分包括第1~11章,此部分將講述12個主流的數據分類算法;第二部分包括12~15章,此部分講述從二分類(隻能對兩類數據進行分類)到多分類的三種主流技術及其實驗對比分析;第三部分包括第16章,主要講述若乾集成學習相關的算法;第四部分包括第17~18章,主要講述屬性選擇相關的原理和算法;第五部分包括第19~20章,主要講述數據選擇和不均衡數據分類相關的原理和技術;第六部分包括第21章,主要講述大數據分析相關的平颱與開發技術。
研究生畢璟君、劉暢暢、張願承擔瞭本書相關實驗部分的程序實現與撰寫的工作。
針對數據挖掘領域的初學者,建議選擇第1~7章、第12章、第16~17章、第19章、第21章作為主要學習內容。如果讀者是數據挖掘方嚮的專傢、工程師、研究生、科研人員,則建議通讀全書。在遇到具體問題時,請仔細閱讀、理解相關章節,必要時,可以去查閱參考文獻中列齣的原始英文論文,進行深入的推敲和探究。
由於筆者水平有限,書中錯謬之處在所難免,如濛讀者賜教,本人將感激之至。
張重生2016年10月於河南大學
大數據分析:數據挖掘必備算法示例詳解 epub pdf mobi txt 電子書 下載 2024
大數據分析:數據挖掘必備算法示例詳解 下載 epub mobi pdf txt 電子書