內容簡介
本書采用理論與實踐相結閤的方式,在簡明扼要地闡明機器學習原理的基礎上,通過大量實例介紹瞭不同場景下機器學習算法在scikit-learn中的實現及應用。書中還有大量的代碼示例及圖例,便於讀者理解和學習並實際上手操作。另一方麵,書中還有很多的延伸閱讀指導,方便讀者係統性地瞭解機器學習領域的現有技術及其發展狀態。
目錄
目 錄
Machine Learning Algorithms
譯者序
前言
作者簡介
審校人員簡介
第1章 機器學習簡介1
1.1 經典機器和自適應機器簡介1
1.2 機器學習的分類2
1.2.1 監督學習3
1.2.2 無監督學習5
1.2.3 強化學習7
1.3 超越機器學習——深度學習和仿生自適應係統8
1.4 機器學習和大數據9
延伸閱讀10
本章小結10
第2章 機器學習的重要元素11
2.1 數據格式11
2.2 可學習性13
2.2.1 欠擬閤和過擬閤15
2.2.2 誤差度量16
2.2.3 PAC學習18
2.3 統計學習方法19
2.3.1 最大後驗概率學習20
2.3.2 最大似然學習20
2.4 信息論的要素24
參考文獻26
本章小結26
第3章 特徵選擇與特徵工程28
3.1 scikit-learn練習數據集28
3.2 創建訓練集和測試集29
3.3 管理分類數據30
3.4 管理缺失特徵33
3.5 數據縮放和歸一化33
3.6 特徵選擇和過濾35
3.7 主成分分析37
3.7.1 非負矩陣分解42
3.7.2 稀疏PCA42
3.7.3 核PCA43
3.8 原子提取和字典學習45
參考文獻47
本章小結47
第4章 綫性迴歸48
4.1 綫性模型48
4.2 一個二維的例子48
4.3 基於scikit-learn的綫性迴歸和更高維50
4.4 Ridge、Lasso和ElasticNet53
4.5 隨機采樣一緻的魯棒迴歸57
4.6 多項式迴歸58
4.7 保序迴歸60
參考文獻62
本章小結62
第5章 邏輯迴歸64
5.1 綫性分類64
5.2 邏輯迴歸65
5.3 實現和優化67
5.4 隨機梯度下降算法69
5.5 通過網格搜索找到最優超參數71
5.6 評估分類的指標73
5.7 ROC麯綫77
本章小結79
第6章 樸素貝葉斯81
6.1 貝葉斯定理81
6.2 樸素貝葉斯分類器82
6.3 scikit-learn中的樸素貝葉斯83
6.3.1 伯努利樸素貝葉斯83
6.3.2 多項式樸素貝葉斯85
6.3.3 高斯樸素貝葉斯86
參考文獻89
本章小結89
第7章 支持嚮量機90
7.1 綫性支持嚮量機90
7.2 scikit-learn實現93
7.2.1 綫性分類94
7.2.2 基於內核的分類95
7.2.3 非綫性例子97
7.3 受控支持嚮量機101
7.4 支持嚮量迴歸103
參考文獻104
本章小結104
第8章 決策樹和集成學習105
8.1 二元決策樹105
8.1.1 二元決策106
8.1.2 不純度的衡量107
8.1.3 特徵重要度109
8.2 基於scikit-learn的決策樹分類109
8.3 集成學習113
8.3.1 隨機森林114
8.3.2 AdaBoost116
8.3.3 梯度樹提升118
8.3.4 投票分類器120
參考文獻122
本章小結122
第9章 聚類基礎124
9.1 聚類簡介124
9.1.1 k均值聚類125
9.1.2 DBSCAN136
9.1.3 光譜聚類138
9.2 基於實證的評價方法139
9.2.1 同質性140
9.2.2 完整性140
9.2.3 修正蘭德指數141
參考文獻142
本章小結142
第10章 層次聚類143
10.1 分層策略143
10.2 凝聚聚類143
10.2.1 樹形圖145
10.2.2 scikit-learn中的凝聚聚類147
10.2.3 連接限製149
參考文獻151
本章小結152
第11章 推薦係統簡介153
11.1 樸素的基於用戶的係統153
11.2 基於內容的係統156
11.3 無模式(或基於內存的)協同過濾158
11.4 基於模型的協同過濾160
11.4.1 奇異值分解策略161
11.4.2 交替最小二乘法策略163
11.4.3 用Apache Spark MLlib實現交替最小二乘法策略164
參考文獻167
本章小結167
第12章 自然語言處理簡介169
12.1 NLTK和內置語料庫169
12.2 詞袋策略171
12.2.1 標記172
12.2.2 停止詞的刪除174
12.2.3 詞乾提取175
12.2.4 嚮量化176
12.3 基於路透社語料庫的文本分類器例子180
參考文獻182
本章小結182
第13章 自然語言處理中的主題建模與情感分析183
13.1 主題建模183
13.1.1 潛在語義分析183
13.1.2 概率潛在語義分析188
13.1.3 潛在狄利剋雷分配193
13.2 情感分析198
參考文獻202
本章小結202
第14章 深度學習和TensorFlow簡介203
14.1 深度學習簡介203
14.1.1 人工神經網絡203
14.1.2 深層結構206
14.2 TensorFlow簡介208
14.2.1 計算梯度210
14.2.2 邏輯迴歸212
14.2.3 用多層感知器進行分類215
14.2.4 圖像捲積218
14.3 Keras內部速覽220
參考文獻225
本章小結225
第15章 構建機器學習框架226
15.1 機器學習框架226
15.1.1 數據收集227
15.1.2 歸一化227
15.1.3 降維227
15.1.4 數據擴充228
15.1.5 數據轉換228
15.1.6 建模、網格搜索和交叉驗證229
15.1.7 可視化229
15.2 用於機器學習框架的scikit-learn工具229
15.2.1 管道229
15.2.2 特徵聯閤232
參考文獻233
本章小結233
前言/序言
前 言Machine Learning Algorithms本書是對機器學習領域的介紹。機器學習不僅對於IT專業人員和分析師,而且對於所有希望利用預測分析、分類、聚類和自然語言處理等技術的科研人員和工程師,都變得越來越重要。當然,本書不可能覆蓋所有細節內容,而是隻對有些主題進行瞭簡單的描述,給用戶更多機會在關注基本概念的基礎上通過參考文獻深入研究感興趣的內容。對於本書中可能齣現的任何不準確的錶達或錯誤深錶歉意,同時感謝所有Packt編輯為本書所付齣的辛勤勞動。謹以此書獻給我的父母,在他們的信任和鼓勵下,我纔得以對這個非凡的主題一直保持著巨大的熱情。
本書涵蓋的內容第1章 對機器學習領域進行簡單的介紹,解釋瞭生成智能應用的重要方法的相關基本概念。
第2章 解釋瞭關於最常見的機器學習問題的數學概念,包括可學習性的概念和信息論的一些內容。
第3章 介紹瞭數據集預處理、如何選擇信息量最大的特徵以及進行降維的重要技術。
第4章 描述瞭連續型變量的綫性模型,重點介紹瞭綫性迴歸算法,介紹瞭Ridge、Lasso和ElasticNet優化以及其他高級技術。
第5章 介紹瞭綫性分類的概念,重點介紹瞭邏輯迴歸和隨機梯度下降算法,以及幾個重要的評估指標。
第6章 解釋瞭貝葉斯概率理論,並描述瞭樸素貝葉斯分類器的結構。
第7章 引入瞭支持嚮量機算法,著重介紹瞭綫性和非綫性分類問題。
第8章 解釋瞭層次決策過程的概念,並描述瞭決策樹分類、Bootstrap和袋裝樹以及投票分類器的概念。
第9章 介紹瞭聚類的概念,描述瞭k均值算法和確定聚類最佳數量的多種方法,還介紹瞭DBSCAN和譜聚類等其他聚類算法。
第10章 繼續第9章聚類的內容,介紹瞭凝聚聚類。
第11章 解釋瞭推薦係統中最常用的算法:基於內容和基於用戶的策略、協同過濾和交替最小二乘法。
第12章 解釋瞭詞袋的概念,並介紹瞭有效處理自然語言數據集所需的最重要技術。
第13章 介紹瞭主題建模的概念,並描述瞭最重要的算法,如潛在語義分析和潛在狄利剋雷分配。同時,還涵蓋瞭情感分析問題,解釋瞭最常用的解決問題的方法。
第14章 介紹瞭深度學習領域的內容,解釋瞭神經網絡和計算圖的概念,對TensorFlow和Keras框架的主要概念進行瞭簡要的介紹並列舉瞭幾個實例。
第15章 介紹瞭如何定義一個完整的機器學習管道,重點介紹瞭每一步的特點和缺點。
閱讀本書須知閱讀本書不需要特彆的數學基礎知識。但是,為充分理解所有的算法,需要有綫性代數、概率論和微積分的基本知識。
本書中的例子采用Python編寫,使用瞭scikit-learn機器學習框架、自然語言工具包(NLTK)、Crab、langdetect、Spark、gensim和TensorFlow(深度學習框架),環境為Linux、Mac OS X或Windows平颱的Python 2.7或3.3+版本。當一個特定的框架被用於特定的任務時,會提供詳細的指導和參考內容。
scikit-learn、NLTK和TensorFlow可以按照以下網站提供的說明進行安裝:http://scikit-learn.org、http://www.nltk.org和https://www.tensorflow.org。
讀者對象本書主要麵嚮希望進入數據科學領域但對機器學習非常陌生的IT專業人員,最好熟悉Python語言。此外,需要基本的數學知識(綫性代數、微積分和概率論),以充分理解大部分章節的內容。
排版約定在本書中,你將找到許多區分不同類型信息的文本樣式。下麵是這些樣式的一些例子以及含義:任何命令行輸入或輸齣如下所示:
警告或重要內容。
提示和技巧。
示例代碼及彩圖下載本書的代碼包可以在GitHub上找到,網址為https://github.com/PacktPublishing/Machine-Learning-Algorithms。讀者也可以訪問華章圖書官網www.hzbook.com,通過注冊並登錄個人賬號,下載本書的源代碼和彩圖。
作者簡介Machine Learning AlgorithmsGiuseppe Bonaccorso是一位擁有12年經驗的機器學習和大數據方麵的專傢。他擁有意大利卡塔尼亞大學電子工程專業工程學碩士學位,並在意大利羅馬第二大學、英國埃塞剋斯大學深造過。在他的職業生涯中,擔任過公共管理、軍事、公用事業、醫療保健、診斷學和廣告等多個業務領域的IT工程師,使用Java、Python、Hadoop、Spark、Theano和TensorFlow等多種技術進行過項目開發與管理。他的主要研究興趣包括人工智能、機器學習、數據科學和精神哲學。
審校人員簡介Machine Learning AlgorithmsManuel Amunategui是SpringML公司數據科學項目副總裁。SpringML是一傢初創公司,提供Google Cloud、TensorFlow和Salesforce企業解決方案。在此之前,他曾在華爾街擔任量化開發人員,為一傢大型股票期權交易商工作,之後擔任微軟的軟件開發人員。他擁有預測分析和國際管理碩士學位。
他是數據科學愛好者、博主(http://amunategui.github.io),擔任Udemy.com和O'Reilly Media的培訓師,以及Packt齣版社的技術審校人員。
Doug Ortiz是ByteCubed的一名高級大數據架構師,他在整個職業生涯中一直從事企業解決方案方麵的架構、開發和集成工作。他幫助企業通過一些現有的和新興的技術,諸如Microsoft BI Stack、Hadoop、NoSQL數據庫、SharePoint以及相關工具和技術,重新發現和利用未充分利用的數據。他也是Illustris公司的創始人,可通過ougortiz@illustris.org與他聯係。
在專業領域,他有多平颱和産品集成、大數據、數據科學、R和Python方麵的豐富經驗。Doug還幫助企業深入瞭解並重視對數據和現有資源的投資,將其轉化為有用的信息來源。他利用獨特和創新的技術改進、拯救並架構瞭多個項目。他的愛好是瑜伽和潛水。
Lukasz Tracewski是一名軟件開發人員和科學傢,專攻機器學習、數字信號處理和雲計算。作為開源社區的積極成員,他也是眾多研究類齣版物的作者。他曾在荷蘭一傢高科技産業作為軟件科學傢工作瞭6年,先後在光刻和電子顯微鏡方麵幫助構建達到生産量與物理精度極限的算法及機器。目前,他在金融行業領導著一支數據科學團隊。
4年來,Lukasz一直在自然保護領域利用他的專業技能提供無償服務,如從錄音或衛星圖像分析中進行鳥類分類等。他在業餘時間從事瀕危物種的保護工作。
機器學習算法 epub pdf mobi txt 電子書 下載 2024
機器學習算法 下載 epub mobi pdf txt 電子書