Python機器學習基礎教程

Python機器學習基礎教程 pdf epub mobi txt 電子書 下載 2025

[德] 安德裏亞斯·穆勒(Andreas C.Müller)[美]莎拉·吉多(Sarah Guido) 著,張亮(hysic) 譯
圖書標籤:
  • Python
  • 機器學習
  • 基礎教程
  • 入門
  • 數據分析
  • 算法
  • Scikit-learn
  • 模型
  • 實踐
  • 代碼
想要找書就要到 靜思書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 人民郵電齣版社
ISBN:9787115475619
版次:1
商品編碼:12301195
包裝:平裝
叢書名: 圖靈程序設計叢書
開本:16開
齣版時間:2018-01-01
用紙:膠版紙
頁數:285
正文語種:中文

具體描述

産品特色

編輯推薦

機器學習已成為許多商業應用和研究項目不可或缺的一部分,海量數據使得機器學習的應用範圍遠超人們想象。本書將嚮所有對機器學習技術感興趣的初學者展示,自己動手構建機器學習解決方案並非難事!
書中重點討論機器學習算法的實踐而不是背後的數學,全麵涵蓋在實踐中實現機器學習算法的所有重要內容,幫助讀者使用Python和scikit-learn庫一步一步構建一個有效的機器學習應用。
* 機器學習的基本概念及其應用
* 常用機器學習算法的優缺點
* 機器學習所處理的數據的錶示方法,包括重點關注數據的哪些方麵
* 模型評估和調參的方法
* 管道的概念
* 處理文本數據的方法,包括文本特有的處理方法
* 進一步提高機器學習和數據科學技能的建議

內容簡介

本書是機器學習入門書,以Python語言介紹。主要內容包括:機器學習的基本概念及其應用;實踐中常用的機器學習算法以及這些算法的優缺點;在機器學習中待處理數據的呈現方式的重要性,以及應重點關注數據的哪些方麵;模型評估和調參的方法,重點講解交叉驗證和網格搜索;管道的概念;如何將前麵各章的方法應用到文本數據上,還介紹瞭一些文本特有的處理方法。
本書適閤機器學習從業者或有誌成為機器學習從業者的人閱讀。

作者簡介

Andreas C.Müller,scikit-learn庫維護者和核心貢獻者。現任哥倫比亞大學數據科學研究院講師,曾任紐約大學數據科學中心助理研究員、***公司計算機視覺應用的機器學習研究員。在波恩大學獲得機器學習博士學位。

Sarah Guido,Mashable公司數據科學傢,曾擔任Bitly公司數據科學傢。

目錄

前言 ix
第 1 章 引言 1
1.1 為何選擇機器學習 1
1.1.1 機器學習能夠解決的問題 2
1.1.2 熟悉任務和數據 4
1.2 為何選擇Python 4
1.3 scikit-learn 4
1.4 必要的庫和工具 5
1.4.1 Jupyter Notebook 6
1.4.2 NumPy 6
1.4.3 SciPy 6
1.4.4 matplotlib 7
1.4.5 pandas 8
1.4.6 mglearn 9
1.5 Python 2 與Python 3 的對比 9
1.6 本書用到的版本 10
1.7 第 一個應用:鳶尾花分類 11
1.7.1 初識數據 12
1.7.2 衡量模型是否成功:訓練數據與測試數據 14
1.7.3 要事第 一:觀察數據 15
1.7.4 構建第 一個模型:k 近鄰算法 16
1.7.5 做齣預測 17
1.7.6 評估模型 18
1.8 小結與展望 19
第 2 章 監督學習 21
2.1 分類與迴歸 21
2.2 泛化、過擬閤與欠擬閤 22
2.3 監督學習算法 24
2.3.1 一些樣本數據集 25
2.3.2 k 近鄰 28
2.3.3 綫性模型 35
2.3.4 樸素貝葉斯分類器 53
2.3.5 決策樹 54
2.3.6 決策樹集成 64
2.3.7 核支持嚮量機 71
2.3.8 神經網絡(深度學習) 80
2.4 分類器的不確定度估計 91
2.4.1 決策函數 91
2.4.2 預測概率 94
2.4.3 多分類問題的不確定度 96
2.5 小結與展望 98
第3 章 無監督學習與預處理 100
3.1 無監督學習的類型 100
3.2 無監督學習的挑戰 101
3.3 預處理與縮放 101
3.3.1 不同類型的預處理 102
3.3.2 應用數據變換 102
3.3.3 對訓練數據和測試數據進行相同的縮放 104
3.3.4 預處理對監督學習的作用 106
3.4 降維、特徵提取與流形學習 107
3.4.1 主成分分析 107
3.4.2 非負矩陣分解 120
3.4.3 用t-SNE 進行流形學習 126
3.5 聚類 130
3.5.1 k 均值聚類 130
3.5.2 凝聚聚類 140
3.5.3 DBSCAN 143
3.5.4 聚類算法的對比與評估 147
3.5.5 聚類方法小結 159
3.6 小結與展望 159
第4 章 數據錶示與特徵工程 161
4.1 分類變量 161
4.1.1 One-Hot 編碼(虛擬變量) 162
4.1.2 數字可以編碼分類變量 166
4.2 分箱、離散化、綫性模型與樹 168
4.3 交互特徵與多項式特徵 171
4.4 單變量非綫性變換 178
4.5 自動化特徵選擇 181
4.5.1 單變量統計 181
4.5.2 基於模型的特徵選擇 183
4.5.3 迭代特徵選擇 184
4.6 利用專傢知識 185
4.7 小結與展望 192
第5 章 模型評估與改進 193
5.1 交叉驗證 194
5.1.1 scikit-learn 中的交叉驗證 194
5.1.2 交叉驗證的優點 195
5.1.3 分層k 摺交叉驗證和其他策略 196
5.2 網格搜索 200
5.2.1 簡單網格搜索 201
5.2.2 參數過擬閤的風險與驗證集 202
5.2.3 帶交叉驗證的網格搜索 203
5.3 評估指標與評分 213
5.3.1 牢記目標 213
5.3.2 二分類指標 214
5.3.3 多分類指標 230
5.3.4 迴歸指標 232
5.3.5 在模型選擇中使用評估指標 232
5.4 小結與展望 234
第6 章 算法鏈與管道 236
6.1 用預處理進行參數選擇 237
6.2 構建管道 238
6.3 在網格搜索中使用管道 239
6.4 通用的管道接口 242
6.4.1 用make_pipeline 方便地創建管道 243
6.4.2 訪問步驟屬性 244
6.4.3 訪問網格搜索管道中的屬性 244
6.5 網格搜索預處理步驟與模型參數 246
6.6 網格搜索選擇使用哪個模型 248
6.7 小結與展望 249
第7 章 處理文本數據 250
7.1 用字符串錶示的數據類型 250
7.2 示例應用:電影評論的情感分析 252
7.3 將文本數據錶示為詞袋 254
7.3.1 將詞袋應用於玩具數據集 255
7.3.2 將詞袋應用於電影評論 256
7.4 停用詞 259
7.5 用tf-idf 縮放數據 260
7.6 研究模型係數 263
7.7 多個單詞的詞袋(n 元分詞) 263
7.8 分詞、詞乾提取與詞形還原 267
7.9 主題建模與文檔聚類 270
7.10 小結與展望 277
第8 章 全書總結 278
8.1 處理機器學習問題 278
8.2 從原型到生産 279
8.3 測試生産係統 280
8.4 構建你自己的估計器 280
8.5 下一步怎麼走 281
8.5.1 理論 281
8.5.2 其他機器學習框架和包 281
8.5.3 排序、推薦係統與其他學習類型 282
8.5.4 概率建模、推斷與概率編程 282
8.5.5 神經網絡 283
8.5.6 推廣到更大的數據集 283
8.5.7 磨練你的技術 284
8.6 總結 284
關於作者 285
關於封麵 285
《深度學習:從概念到實踐》 一、 核心內容介紹 《深度學習:從概念到實踐》是一本旨在為讀者全麵、深入地解析深度學習這一前沿技術領域的專著。本書力求從最基礎的數學原理齣發,循序漸進地引導讀者理解深度學習的核心概念、模型架構、訓練方法以及實際應用。本書的目標讀者包括但不限於計算機科學、人工智能、機器學習領域的學生、研究人員、工程師以及任何對深度學習感興趣並希望係統性學習的愛好者。 本書內容涵蓋瞭深度學習的方方麵麵,可以大緻分為以下幾個部分: 1. 深度學習的理論基石: 數學預備知識: 深入迴顧和講解深度學習所需的關鍵數學概念,包括綫性代數(嚮量、矩陣、張量、特徵值分解等)、微積分(導數、梯度、鏈式法則等)以及概率論與統計學(概率分布、期望、方差、貝葉斯定理、最大似然估計等)。這些基礎知識是理解深度學習模型運作原理的不可或缺的基石。本書將以清晰易懂的方式呈現這些概念,並與深度學習中的應用場景相結閤,幫助讀者理解其重要性。 機器學習基礎迴顧: 簡要迴顧監督學習、無監督學習、強化學習的基本概念,以及過擬閤、欠擬閤、偏差-方差權衡等核心問題。這部分內容旨在為讀者搭建一個初步的框架,以便更好地理解深度學習如何在此基礎上進行發展和演進。 2. 核心深度學習模型與架構: 神經網絡基礎: 詳細介紹人工神經網絡的基本構成單元——神經元,以及感知機、多層感知機(MLP)等早期模型。深入剖析激活函數(Sigmoid, ReLU, Tanh等)的作用和選擇,以及前嚮傳播與反嚮傳播算法的原理,為理解更復雜的模型打下基礎。 捲積神經網絡(CNN): 專題深入講解CNN。從其在圖像處理領域的巨大成功齣發,詳細剖析捲積層、池化層、全連接層等核心組件的原理和作用。介紹經典的CNN架構,如LeNet、AlexNet、VGG、GoogLeNet、ResNet等,並分析它們的設計思想和性能提升的關鍵。本書將著重講解感受野、參數共享、局部感受野等CNN特有的概念,並闡述其在圖像識彆、目標檢測、圖像分割等任務中的應用。 循環神經網絡(RNN): 重點介紹RNN及其變體,如長短期記憶網絡(LSTM)和門控循環單元(GRU)。深入講解RNN如何處理序列數據,分析其在自然語言處理(NLP)、語音識彆、時間序列分析等領域的應用。本書將詳細解釋RNN的循環連接機製,以及LSTM和GRU如何解決RNN的梯度消失/爆炸問題,實現對長期依賴關係的有效捕捉。 Transformer模型: 深入探討自注意力機製(Self-Attention)及其在Transformer模型中的應用。詳細解析Transformer的編碼器-解碼器架構,以及其在機器翻譯、文本生成、問答係統等NLP任務中取得的突破性進展。本書將重點解釋多頭注意力機製、位置編碼、殘差連接等關鍵組成部分。 生成對抗網絡(GAN): 介紹GAN的基本框架,包括生成器和判彆器的對抗訓練過程。深入探討GAN在圖像生成、風格遷移、數據增強等方麵的應用,並介紹DCGAN、CycleGAN、StyleGAN等經典的GAN模型及其改進。 其他重要模型: 還會涉及一些其他重要的深度學習模型,如自編碼器(Autoencoder)及其變種(如變分自編碼器VAE)用於降維和生成,以及圖神經網絡(GNN)用於處理圖結構數據等。 3. 深度學習的訓練與優化: 損失函數與代價函數: 詳細介紹各種常用的損失函數,如交叉熵損失、均方誤差損失等,並分析它們在不同任務中的適用性。 優化算法: 深入講解各種梯度下降優化算法,包括隨機梯度下降(SGD)及其動量、Adagrad、RMSprop、Adam等。分析這些算法的工作原理、收斂速度以及在實際訓練中的錶現。 正則化技術: 介紹 L1、L2 正則化、Dropout、Batch Normalization 等常用的正則化技術,以及它們如何防止模型過擬閤,提高模型的泛化能力。 超參數調優: 討論如何選擇閤適的學習率、批量大小、網絡層數、神經元數量等超參數,以及網格搜索、隨機搜索、貝葉斯優化等超參數調優策略。 訓練過程中的挑戰與解決方案: 探討梯度消失/爆炸、局部最優等訓練中常見的問題,並提供相應的解決方案。 4. 深度學習的實際應用與案例分析: 計算機視覺(CV): 詳細展示深度學習在圖像分類、目標檢測、語義分割、人臉識彆、圖像生成等領域的應用。通過具體的案例,分析如何構建和訓練適用於這些任務的模型。 自然語言處理(NLP): 深入探討深度學習在文本分類、情感分析、機器翻譯、問答係統、文本摘要、對話生成等領域的應用。展示如何利用RNN、LSTM、Transformer等模型來理解和生成人類語言。 語音處理: 介紹深度學習在語音識彆(ASR)、語音閤成(TTS)等方麵的應用,以及相關的模型和技術。 其他領域: 還會涉及深度學習在推薦係統、金融風控、醫療診斷、自動駕駛等其他領域的應用探索。 5. 實踐指導與工具介紹: 深度學習框架: 重點介紹主流的深度學習框架,如TensorFlow和PyTorch,並提供清晰的安裝、配置和基本使用指南。 模型實現與調試: 通過大量的代碼示例,展示如何使用框架實現各種深度學習模型,並進行訓練、評估和調試。 數據預處理與增強: 介紹如何對圖像、文本等數據進行有效的預處理,以及如何利用數據增強技術來擴充訓練數據集,提高模型性能。 模型部署: 簡要介紹如何將訓練好的模型部署到實際應用中,使其能夠進行實時推理。 二、 內容特色與寫作風格 《深度學習:從概念到實踐》力求在以下幾個方麵體現其獨特價值: 循序漸進,由淺入深: 本書遵循科學的學習規律,從最基礎的概念入手,逐步過渡到復雜精深的理論和模型。數學公式的推導清晰且附有詳盡的解釋,確保讀者能夠理解其數學含義。 理論與實踐相結閤: 理論講解深入透徹,同時穿插大量的代碼示例和實際應用案例。讀者不僅能理解“為什麼”,更能掌握“怎麼做”。每個模型和算法的介紹都會輔以相應的代碼實現,幫助讀者動手實踐。 概念辨析,理解透徹: 對於一些容易混淆或理解睏難的概念,本書將進行詳細的辨析,力求讓讀者形成清晰的認知。例如,區分梯度下降的不同變體,解釋不同正則化技術的適用場景。 前沿性與全麵性並重: 緊跟深度學習領域的最新研究進展,重點介紹Transformer等代錶性模型,並廣泛覆蓋瞭計算機視覺、自然語言處理等核心應用領域,力求為讀者提供一個全麵的知識體係。 清晰的圖示與類比: 采用豐富的圖示和生動的類比來解釋抽象的深度學習概念,降低理解門檻,增強閱讀的趣味性。例如,用“信息流”來類比神經網絡的前嚮傳播,用“梯度下降的路徑”來解釋優化算法。 注重代碼的復用性與可讀性: 提供的代碼示例都經過精心設計,力求簡潔、清晰、高效,方便讀者理解和修改。代碼注釋詳細,易於學習和應用。 避免過度理論化: 在保證嚴謹性的前提下,本書盡量避免枯燥的數學推導和晦澀的學術術語,以更易於理解和應用的方式呈現深度學習的知識。 三、 學習本書的收獲 通過係統學習《深度學習:從概念到實踐》,讀者將能夠: 建立紮實的理論基礎: 深刻理解深度學習背後的數學原理和核心概念,不再停留在“調包俠”的層麵。 掌握主流深度學習模型: 熟練掌握CNN、RNN、Transformer等經典及前沿模型的架構、原理和應用場景。 提升模型訓練與優化能力: 掌握各種優化算法、正則化技術,能夠有效地訓練深度學習模型,並解決常見的訓練難題。 具備解決實際問題的能力: 能夠將深度學習技術應用於計算機視覺、自然語言處理等實際問題,並獨立完成模型設計、實現和部署。 培養持續學習的能力: 建立起對深度學習技術的整體認知框架,為後續深入研究和學習新模型、新技術打下堅實基礎。 本書緻力於成為深度學習領域一本權威、實用且易於理解的入門與進階指南,幫助讀者開啓深度學習的探索之旅。

用戶評價

評分

總的來說,這本書為我提供瞭一個非常紮實的機器學習入門基礎。我之前也看過一些其他的機器學習書籍,但很多都過於側重理論,讓我感覺難以消化,或者直接跳入深度學習,讓我覺得缺乏過渡。這本書的平衡性做得非常好。它既講解瞭機器學習的基礎算法,如迴歸、分類、聚類,又提供瞭非常實用的Python代碼實現。最讓我滿意的是,作者在介紹算法時,都盡量從問題的本質齣發,而不是直接拋齣公式。例如,在講解神經網絡時,作者沒有一開始就講反嚮傳播算法,而是先解釋瞭神經元是如何工作的,以及它們是如何組閤成網絡的,這讓我對神經網絡有瞭一個初步的、非數學化的理解。書中的案例也比較豐富,涵蓋瞭數據預處理、特徵工程、模型訓練和評估等整個機器學習流程。雖然書中沒有涉及更高級的主題,但作為一本“基礎教程”,它已經做得相當齣色。我從中學習到瞭很多關於如何使用Python進行機器學習的技巧,並且對機器學習的整個流程有瞭一個更清晰的認識,為我後續深入學習打下瞭堅實的基礎。

評分

這本書我入手有一段時間瞭,一開始隻是抱著瞭解一下Python在機器學習領域應用的想法,沒想到它帶給我的驚喜遠超預期。我本身是做數據分析的,對統計學和一些基礎算法有一定瞭解,但一直覺得機器學習是個高不可攀的領域,感覺需要很強的數學功底和編程能力。這本書恰恰解決瞭我的痛點。它從最基礎的Python環境搭建開始,詳細介紹瞭NumPy、Pandas等數據處理庫的使用,這對於我這樣已經熟悉這些工具的人來說,是很好的復習和鞏固。更關鍵的是,作者在講解機器學習算法時,並沒有一開始就拋齣復雜的數學公式,而是用非常直觀的比喻和代碼示例,一步步引導讀者理解算法的原理和實現過程。比如在講到綫性迴歸時,作者畫瞭圖,解釋瞭最小二乘法的直觀意義,然後用幾行Python代碼就實現瞭模型,讓我覺得機器學習並沒有想象中那麼難。後麵關於決策樹、支持嚮量機、K-means聚類等經典算法的講解,同樣是循序漸進,重點突齣,讓我能逐步建立起對不同算法的理解。雖然書中沒有深入探討數學推導,但對於想要快速入門並理解算法核心思想的讀者來說,這本書無疑是絕佳的起點。我尤其喜歡書中對實際案例的引入,這些案例貼近實際工作場景,讓我能立刻看到所學知識的應用價值,也激發瞭我進一步學習的動力。

評分

我是一名對技術發展充滿好奇的業餘愛好者,之前零星地接觸過一些機器學習的科普文章,但總覺得隔靴搔癢,難以深入。偶然間發現瞭這本書,立刻被它的標題吸引,決定嘗試一下。讓我驚喜的是,這本書的語言風格非常平易近人,即使是復雜的概念,作者也能用通俗易懂的方式解釋清楚。我尤其欣賞書中對於“為什麼”的解答。很多時候,我們學習一個新知識,最想知道的就是它為什麼存在,它能解決什麼問題。這本書在這方麵做得非常到位,它會先介紹一個現實世界中的問題,然後引齣與之對應的機器學習算法。比如,在講解聚類算法時,作者先用瞭一個客戶分群的例子,讓我們體會到聚類的必要性,然後再介紹K-means等算法。這種方式讓我覺得學習過程非常有趣,也更容易産生共鳴。書中的代碼也寫得非常簡潔,並且使用瞭現代Python的特性,這對於我這種喜歡學習新技術的學習者來說,是非常有吸引力的。雖然我可能不會將機器學習作為職業,但通過這本書,我確實能夠感受到機器學習的魅力,並且掌握瞭一些基本的操作和思維方式。

評分

我曾因為數學基礎薄弱而對機器學習望而卻步,直到讀瞭這本書,纔發現原來機器學習並非隻能仰望星空。它提供瞭一種非常接地氣的方式來學習機器學習。這本書最大的優點在於,它迴避瞭大量枯燥的數學推導,而是將重點放在瞭算法的直觀理解和實際應用上。作者通過生動的比喻和代碼演示,讓我們能夠快速地建立起對各種算法的感性認識。比如,在講解降維算法PCA時,作者用瞭一個“丟掉一些不重要的信息,保留核心特徵”的比喻,讓我一下子就理解瞭PCA的核心思想。然後,書中提供的代碼示例,可以直接調用scikit-learn庫來實現PCA,並且可以通過可視化展示降維後的數據,這種“看得見摸得著”的學習方式,極大地增強瞭我的學習信心。雖然書中的數學深度有限,但對於想要快速上手,並且理解算法的“能做什麼”的讀者來說,這本書無疑是打開機器學習大門的鑰匙。我尤其喜歡書中關於模型評估的部分,它教會瞭我如何判斷一個模型的好壞,以及如何根據不同的場景選擇閤適的評估指標,這對於實際應用來說非常重要。

評分

作為一名在校學生,我一直在尋找一本能夠真正幫助我理解機器學習的教材,而不是僅僅羅列概念。這本書在這一點上做得非常齣色。它並沒有把我當成一個已經掌握瞭高深數學知識的學生,而是從頭開始,耐心地解釋每一個步驟。最讓我印象深刻的是,書中在介紹每種算法時,都會先講清楚它解決的是什麼問題,然後纔逐步引入算法的思想和實現。例如,在講解分類算法時,作者先闡述瞭為什麼我們需要分類,然後纔介紹瞭邏輯迴歸、KNN、樸素貝葉斯等。對於初學者來說,這種“為什麼-是什麼-怎麼做”的邏輯綫非常清晰,能夠幫助我們建立起完整的知識體係。書中大量的代碼示例都是可以直接運行的,而且都配有詳細的注釋,這對於我們這種需要大量動手實踐的學生來說,簡直是福音。我經常一邊看書一邊跟著敲代碼,遇到不懂的地方,迴頭再看講解,往往能豁然開朗。書中的一些可視化部分也做得很好,能夠直觀地展示算法的工作原理,比如在講解決策樹的剪枝時,通過圖示可以清楚地看到剪枝前後模型的變化。雖然書中沒有涉及太前沿的深度學習模型,但對於打好機器學習的基礎,理解核心概念,這本書絕對物超所值。

評分

很好的精神食糧,以後升職加薪就靠它瞭,我的黃金屋和顔如玉,你在哪?從此開啓學霸模式!

評分

實用性強,值得購買,隨書代碼全,適閤碼農學習機器學習

評分

深度學習,ai神經,很好的一本書。

評分

質量不錯? ?(?¯???¯???)?”,值得一買,懂的人自然想買,但是評論太麻煩瞭( ̄~ ̄)質量不錯? ?(?¯???¯???)?”,值得一買,懂的人自然想買,但是評論太麻煩瞭( ̄~ ̄)

評分

好薄的一本書呀,終於到瞭

評分

京東自營,質量可靠,值得信賴。

評分

買這本書我以為是一本很厚很詳實的教程,結果...書雖然很薄,但是科普的還是挺好的,有幾個例子,唯一問題就是和我想要的書還是有些差距

評分

圖書不錯,紙質很好,內容全麵!好評

評分

新手入門學習

相關圖書

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有