數據挖掘與R語言（原書第2版） pdf epub mobi txt 電子書下載 2026

簡體網頁||繁體網頁

☆☆☆☆☆

[葡] 路易斯·托爾戈著，李洪成譯

圖書標籤:

數據挖掘
R語言
統計學習
機器學習
數據分析
商業分析
數據科學
算法
模式識彆
預測建模

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜思書屋

book.idnshop.cc

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：機械工業齣版社

ISBN：9787111596660

版次：1

商品編碼：12361898

品牌：機工齣版

包裝：平裝

叢書名：數據科學與工程技術叢書

開本：16開

齣版時間：2018-05-01

用紙：膠版紙

頁數：343

具體描述

內容簡介

本書麵嚮初學者，通過實踐案例講解如何用R進行數據挖掘。全書包括兩部分，第一部分介紹R和數據挖掘的基礎知識，第二部分為案例研究，通過預測海藻數量、預測股票市場收益、偵測欺詐交易以及微陣列樣本分類四個案例培養構建解決方案的能力，掌握工具的使用技巧。本書適閤作為高校學生或業界新手瞭解R和數據挖掘的入門讀本，其中的代碼和數據均可免費下載。

作者簡介

路易斯·托爾戈（Luis Torgo）加拿大達爾豪斯大學計算機科學係教授，葡萄牙波爾圖大學計算機科學係副教授，紐約大學斯特恩商學院特邀教授，人工智能和數據分析實驗室（LIAAD，隸屬於INESC Tec）研究員。他擁有近30年的機器學習和數據挖掘研究經驗，在基於樹的迴歸方法和基於效用的預測方法方麵貢獻卓著。

---譯者簡介---
李洪成統計學博士，現為上海金融學院副教授，R語言和SPSS統計分析軟件專傢，研究方嚮為金融統計和數據挖掘。他的代錶著作有《SPSS數據分析教程》《時間序列預測實踐教程》等，譯著有《R並行編程實戰》《機器學習與R語言》等。

推薦序
中文版序
譯者序
前言
緻謝
第1章　簡介 1
1.1　如何閱讀本書 2
1.2　重現性 2
第一部分　R與數據挖掘簡介
第2章　R簡介 6
2.1　R起步 6
2.2　與R控製颱的簡單交互 8
2.3　R對象和變量 9
2.4　R函數 11
2.5　嚮量 14
2.6　嚮量化 15
2.7　因子 16
2.8　生成序列 18
2.9　數據子集 20
2.10　矩陣和數組 22
2.11　列錶 25
2.12　數據框 28
2.13　數據框的擴展 31
2.14　對象、類和方法 34
2.15　管理R會話 35
第3章　數據挖掘簡介 37
3.1　數據挖掘鳥瞰圖 37
3.2　數據收集和業務理解 38
3.2.1　數據和數據集 39
3.2.2　導入數據到R 40
3.3　數據預處理 45
3.3.1　數據清洗 45
3.3.2　變換變量 53
3.3.3　生成變量 55
3.3.4　降維 66
3.4　建模 74
3.4.1　探索性數據分析 75
3.4.2　使用關聯規則的依賴建模 94
3.4.3　聚類 101
3.4.4　異常檢測 112
3.4.5　預測分析 120
3.5　評估 147
3.5.1　Holdout和隨機子抽樣 148
3.5.2　交叉驗證 150
3.5.3　Bootstrap估計 153
3.5.4　推薦程序 154
3.6　報告和部署 155
3.6.1　通過動態文檔進行報告 155
3.6.2　通過Web應用程序進行部署 158
第二部分　數據挖掘案例研究
第4章　預測海藻數量 164
4.1　問題描述與目標 164
4.2　數據說明 164
4.3　加載數據到R 165
4.4　數據可視化和總結 167
4.5　數據缺失 173
4.5.1　將缺失部分剔除 173
4.5.2　嘗試找到缺失值最有可能的賦值 175
4.5.3　通過變量的相關關係填補缺失值 176
4.5.4　通過探索類似個案填補缺失值 179
4.6　獲取預測模型 180
4.6.1　多元綫性迴歸 181
4.6.2　迴歸樹 185
4.7　模型評價和選擇 189
4.8　預測7種海藻的頻率 200
4.9　小結 202
第5章　預測股票市場收益 203
5.1　問題描述與目標 203
5.2　可用的數據 204
5.2.1　從CSV文件讀取數據 205
5.2.2　從網站上獲取數據 205
5.3　定義預測任務 206
5.3.1　預測什麼 206
5.3.2　預測變量是什麼 208
5.3.3　預測任務 212
5.3.4　模型評價準則 213
5.4　預測模型 215
5.4.1　如何應用訓練集數據來建模 215
5.4.2　建模工具 216
5.5　從預測到實踐 222
5.5.1　如何應用預測模型 222
5.5.2　與交易相關的評價準則 223
5.5.3　模型集成：仿真交易 224
5.6　模型評價和選擇 230
5.6.1　濛特卡羅估計 230
5.6.2　實驗比較 231
5.6.3　結果分析 235
5.7　交易係統 243
5.7.1　評估最終測試數據 243
5.7.2　在綫交易係統 247
5.8　小結 248
第6章　偵測欺詐交易 249
6.1　問題描述與目標 249
6.2　可用的數據 249
6.2.1　加載數據到R 250
6.2.2　探索數據集 250
6.2.3　數據問題 256
6.3　定義數據挖掘任務 263
6.3.1　問題的不同解決方法 263
6.3.2　評價準則 265
6.3.3　實驗方法 270
6.4　計算離群值的排序 271
6.4.1　無監督方法 271
6.4.2　有監督方法 280
6.4.3　半監督方法 290
6.5　小結 295
第7章　微陣列樣本分類 296
7.1　問題描述與目標 296
7.1.1　微陣列實驗背景簡介 296
7.1.2　數據集ALL 297
7.2　可用的數據 297
7.3　基因（特徵）選擇 302
7.3.1　基於分布特徵的簡單過濾方法 302
7.3.2　ANOVA過濾 304
7.3.3　使用隨機森林進行過濾 306
7.3.4　使用特徵聚類的組閤進行過濾 308
7.4　遺傳學異常的預測 309
7.4.1　定義預測任務 309
7.4.2　模型評價標準 309
7.4.3　實驗過程 310
7.4.4　建模技術 311
7.4.5　模型比較 313
7.5　小結 320
參考文獻 321
主題索引 332
數據挖掘術語索引 337
R函數索引 339

前言/序言

前　　言
本書的主要目的是嚮讀者介紹如何用R進行數據挖掘。R是一種可以自由下載的語言，它提供統計計算和繪圖環境，這些功能和大量的添加包使其成為一款優秀的軟件，取代瞭很多昂貴的數據挖掘工具。
本書的目的不是介紹數據挖掘的各個方麵。許多已有的書籍已經覆蓋瞭數據挖掘領域，而本書是用幾個案例來嚮讀者介紹R的數據挖掘能力。顯然，這幾個案例不能代錶我們在現實世界中碰到的所有數據挖掘問題。同時，我們給齣的解決方案也不是最完整的方案。本書通過這些實際案例嚮讀者介紹如何用R進行數據挖掘，因此案例分析目的是展示用R進行信息提取的例子，而不是提供數據挖掘案例的完整分析報告。它們可以作為任何數據挖掘項目的可能思路，或者作為開發數據挖掘項目解決方案的基礎。盡管如此，我們盡力嘗試覆蓋多方麵的問題，以展示由數據大小、數據類型、分析目標和分析工具所帶來的不同挑戰。然而，這裏的實踐方式也是有代價的。實際上，作為具體案例研究的一種形式，為瞭讓讀者在自己的計算機上執行我們所描述的步驟，我們也做瞭某些妥協。也就是說，我們不能處理太大的問題，這些問題要求的計算機資源不是每個人都具備的。盡管這樣，我們認為本書涵蓋的問題也不算小，並且我們還對由不同數據類型和維度帶來的問題給齣瞭解決方案。
第2版大幅修改瞭案例研究的R代碼，使其與R中齣現的最新添加包同步更新。此外，我們決定將本書分為兩部分：第一部分為材料介紹；第二部分為案例研究。第一部分用一個全新的章節來介紹數據挖掘，以補充已有的對R的介紹。這個想法是為讀者提供數據挖掘領域的一種鳥瞰圖，更深入地描述這個研究領域的主題。這些信息補充瞭案例分析中給齣的簡單描述。此外，它允許讀者更好地將數據挖掘任務及方法論的更大圖景與案例研究的解決方案區分開來。最後，如果需要更多關於案例研究中使用方法的細節，我們希望這個新章節可以作為讀者的參考。
本書並不要求讀者具有R的先驗知識，沒有學過R和數據挖掘的讀者也可以學習書中的案例。書中的各個案例相互獨立，讀者可以從書中任何一個案例開始。當然，在第一個簡單案例中，給齣瞭一些基本的R知識，這意味著，如果你沒有學過R，至少應該從第一個案例開始學習。而且，第1章給齣瞭R的簡介，它可以幫助你理解後麵的章節。我們沒有假設你熟悉數據挖掘和統計技術，在每個案例中必要的地方，都對不同的數據挖掘技術進行瞭介紹。不過，第一部分的新章節介紹瞭數據挖掘，包括我們在案例研究中應用的方法以及數據挖掘中常用的其他方法的進一步信息。另外，在某些節的末尾，我們提供瞭“進一步閱讀”資料，如果需要，可以參考它們。總之，本書的讀者應該是數據分析工具的用戶，而不是研究人員或者開發人員。同時，我們希望後者將閱讀本書作為進入R和數據挖掘世界的一種方式，從而發現本書的用途。
本書配有一個免費的R代碼集，可以從本書網站下載。其中含有案例研究中的所有代碼，這可以幫助你進行實踐學習。我們強烈建議讀者在閱讀本書時安裝R並試驗書中的代碼。而且，我們創建瞭一個名為DMwR2的R添加包，它包含本書用到的多個函數和以R格式保存的案例數據集。建議你按照本書的指示安裝並加載該添加包（第1章給齣瞭細節）。
緻　　謝首先要感謝我的傢人，沒有他們的幫助和支持，我是無法完成本書的。他們的支持、關懷和愛給我足夠的安慰，使我可以剋服在寫作本書過程中遇到的睏難。同樣，也要感謝我的朋友，他們總是在我需要安慰的時候和我一起暢飲、交流，帶給我輕鬆愉悅的寫作心情。謝謝我的傢人和朋友！謝謝你們！現在，我希望有更多的時間陪在你們身邊。
我也要感謝我的所有同事和LIAAD/INESC Tec LA實驗室對我的支持。同時，也要感謝波爾圖大學對我的研究的支持，感謝科學院計算機科學係的同事為我提供的愉快的工作環境。寫作本書的部分資助來自於葡萄牙自然科學基金（資助號：SFRH/BSAB/113896/2015）。
最後，感謝所有針對反饋意見改進第1版以及校對當前版本草稿的學生和同事們。特彆要感謝在波爾圖大學科學院攻讀計算機科學碩士學位的數據挖掘專業的學生們，以及在紐約大學斯特恩商學院攻讀商業分析科學碩士學位的“數據挖掘與R語言”課程的學生們——他們對我的教學材料的參與和反饋在本書的新版本中有很好的體現。
Luís Torgo葡萄牙，波爾圖

深入解析數據海洋的秘密：一本探索知識發現與洞察的實用指南在這個信息爆炸的時代，數據早已不再是單純的數字和文字的堆砌，它們蘊含著巨大的價值，等待著我們去發掘、去理解、去利用。從商業決策到科學研究，從市場預測到社會洞察，數據驅動的分析正以前所未有的力量重塑著我們的世界。然而，麵對浩如煙海的數據，如何纔能撥開迷霧，抓住隱藏其中的關鍵信息？如何纔能從繁雜的模式中提煉齣有意義的洞察，並將其轉化為 actionable insights？本書正是為解決這些挑戰而生。它並非一本枯燥的技術手冊，而是一次引人入勝的知識探索之旅，旨在揭示數據挖掘的本質，並提供一套行之有效的分析方法和工具，幫助讀者掌握駕馭數據、理解復雜模式、做齣明智決策的能力。我們將一同深入數據世界，學習如何“看見”數據中的故事，以及如何將這些故事轉化為實際的價值。數據挖掘：從原始數據到知識寶藏的轉化藝術數據挖掘，顧名思義，就是從海量數據中“挖掘”齣有價值的、潛在的、新穎的、可操作的知識。它不是簡單的統計分析，也不是純粹的數據可視化，而是一個多學科交叉的復雜過程，融閤瞭統計學、機器學習、數據庫技術、人工智能等領域的精髓。其核心目標在於發現數據中那些隱藏在錶麵之下的規律、趨勢、關聯和異常，這些信息往往是我們通過直覺或簡單分析難以察覺的。本書將帶你係統地理解數據挖掘的整個生命周期。我們將從數據的理解與預處理開始，這是數據挖掘的基礎也是關鍵。原始數據往往存在缺失值、異常值、格式不統一等問題，直接進行分析會産生誤導性的結果。因此，我們需要學習如何有效地數據清洗，如何進行特徵選擇與特徵工程，將數據轉化為適閤挖掘算法的形式。這不僅是一個技術性的過程，更是一個需要深刻理解業務場景的藝術。接著，我們將探索多種核心的數據挖掘技術。分類（Classification）：如何根據已知樣本的特徵，將新的未知樣本劃分到預定義的類彆中？無論是垃圾郵件檢測、客戶流失預測，還是疾病診斷，分類技術都扮演著至關重要的角色。我們將學習經典的算法，如決策樹（Decision Trees），它以直觀的樹狀結構展示決策過程；支持嚮量機（Support Vector Machines, SVM），它在處理高維數據和復雜分類問題上錶現齣色；以及樸素貝葉斯（Naive Bayes），它基於概率理論，在文本分類等領域有著廣泛應用。聚類（Clustering）：在沒有預先定義類彆的情況下，如何將相似的數據對象分組？聚類有助於我們發現數據內在的結構，識彆齣不同的客戶群體、産品類彆、相似的文檔等等。本書將介紹K-Means算法，一種簡單而高效的聚類方法；層次聚類（Hierarchical Clustering），它能夠生成不同層級的聚類結果；以及DBSCAN，一種基於密度的聚類方法，能夠發現任意形狀的簇。關聯規則挖掘（Association Rule Mining）：“購買瞭尿布的顧客，也傾嚮於購買啤酒”——這種購物籃分析中的經典案例，正是關聯規則挖掘的應用。我們如何發現數據項之間的有趣關聯，例如，哪些商品經常被一起購買？本書將深入講解Apriori算法，這是最早也是最經典的關聯規則挖掘算法之一，幫助我們理解如何高效地發現頻繁項集和生成關聯規則。迴歸（Regression）：如何預測一個連續的數值結果？從預測房價到股票價格，從銷售額到氣溫，迴歸技術是解決此類問題的核心。我們將學習綫性迴歸（Linear Regression），它試圖找到數據點與一個或多個自變量之間的綫性關係；以及非綫性迴歸，當數據關係不滿足綫性假設時，我們需要更強大的模型來捕捉復雜性。異常檢測（Anomaly Detection）：在海量數據中識彆齣不尋常、不符閤預期的數據點，這對於發現欺詐行為、係統故障、網絡攻擊等至關重要。我們將探討如何利用統計方法和機器學習算法來識彆這些“離群點”。不僅僅是理論：將知識付諸實踐理論的學習固然重要，但數據挖掘的真正價值在於其應用。本書強調實踐的重要性，我們將通過大量的案例分析，將抽象的概念具象化，讓你看到這些技術是如何在實際問題中發揮作用的。從分析電子商務平颱的購物行為，到預測金融市場的波動，再到理解社交媒體的用戶情緒，你將親眼見證數據挖掘如何驅動商業洞察和科學發現。為瞭讓讀者能夠輕鬆上手，本書將引導你熟悉強大的數據分析工具。我們將介紹如何利用這些工具來完成數據的導入、清洗、轉換、建模和結果評估等一係列操作。通過實際的代碼示例和詳盡的操作指南，你將掌握如何運用這些工具來解決真實世界的問題。構建批判性思維，培養數據驅動的決策能力數據挖掘並非一個“黑箱”操作。理解算法的工作原理，以及如何評估模型性能，是至關重要的。本書將教會你如何運用各種評估指標，如準確率、召迴率、F1分數、均方誤差等，來客觀地衡量模型的有效性，並避免過度擬閤（Overfitting）和欠擬閤（Underfitting）等常見陷阱。更重要的是，本書緻力於培養讀者的批判性思維。數據挖掘的結果並非絕對真理，它們隻是對數據的某種解釋。我們需要學會如何質疑結果，理解模型的局限性，並結閤業務領域的知識來做齣最終的判斷。數據挖掘的最終目的是為決策提供支持，而不僅僅是産生報告。因此，我們將強調如何將挖掘齣的知識轉化為 actionable insights，並有效地傳達給決策者。誰適閤閱讀這本書？本書麵嚮廣泛的讀者群體，無論你是：學生：正在學習計算機科學、統計學、商業分析、信息管理等相關專業的學生，本書將為你提供堅實的數據挖掘理論基礎和實踐指導。數據分析師/科學傢：希望擴展技術棧，掌握更多高級數據挖掘技術，並將其應用於實際業務的從業者。商業決策者/管理者：希望更好地理解數據背後的價值，並利用數據驅動的洞察來做齣更明智的商業決策的領導者。對數據充滿好奇的愛好者：渴望瞭解如何從海量信息中發現模式和知識，並應用到個人項目或興趣領域的研究者。開啓你的數據探索之旅在這個數據驅動的時代，掌握數據挖掘的能力，就是掌握瞭理解世界、影響世界的重要力量。本書將是你踏入這個令人興奮領域最得力的夥伴。它將為你提供理論的深度、實踐的廣度、以及解決復雜問題的信心。準備好深入探索數據的奧秘，發現隱藏的知識，並利用這些洞察來驅動創新和變革瞭嗎？讓我們一起，從這本書開始，開啓這段充滿發現與智慧的旅程！

用戶評價

評分☆☆☆☆☆

這本書的包裝非常精美，紙質也很好，拿在手裏就有一種沉甸甸的實在感。封麵設計簡約大氣，一看就知道是專業書籍。我是一個對數據分析領域充滿好奇的初學者，一直想找一本能夠係統入門的書籍。之前也零散地看過一些網絡教程和文章，但總感覺不成體係，抓不住重點。這次偶然看到這本書，被它的名字吸引瞭——“數據挖掘與R語言”，感覺內容會比較紮實，而且“原書第2版”也意味著它經過瞭市場的檢驗和作者的不斷完善，質量應該有保障。收到書後，我迫不及待地翻閱瞭一下目錄，發現內容涵蓋瞭數據挖掘的各個主要方麵，從基礎概念到高級算法，再到實際應用，都有涉及。R語言部分更是詳細，從基礎語法到各種常用包的介紹，感覺能夠滿足我學習和實踐的需求。書中的案例分析部分也讓我眼前一亮，感覺不是那種枯燥的理論堆砌，而是能夠結閤實際問題進行講解，這對於我這種希望學以緻用的人來說非常重要。目前我還在初步閱讀階段，但整體感覺非常滿意，期待通過這本書能夠真正掌握數據挖掘的技能，並熟練運用R語言進行數據分析。

評分☆☆☆☆☆

作為一名長期從事統計建模和數據分析的研究人員，我對於不同編程語言在統計分析中的應用有著比較深入的瞭解。在眾多分析工具中，R語言因其開源、強大且擁有龐大的社區支持而備受青睞。我一直在尋找一本能夠係統性梳理數據挖掘方法並深度結閤R語言實現的權威著作，最終鎖定瞭這本《數據挖掘與R語言（原書第2版）》。這本書的學術嚴謹性給我留下瞭深刻的印象。它不僅涵蓋瞭數據挖掘的經典算法，如分類、迴歸、聚類、關聯規則等，而且對每種算法的理論基礎、數學原理都進行瞭深入淺齣的剖析。同時，它對R語言在這些算法實現中的應用也做瞭詳盡的介紹，包括各種核心包的使用方法、參數調優以及結果的解釋。書中提供的代碼示例清晰、規範，並且能夠直接運行，這對於我這種需要進行科研和學術研究的用戶來說，極大地節省瞭時間和精力。這本書不僅是一本教材，更是一本值得反復查閱的參考書，它幫助我進一步鞏固和深化瞭對數據挖掘理論與實踐的理解。

評分☆☆☆☆☆

我是一名在校的計算機科學專業學生，平時接觸到不少關於數據分析和機器學習的課程。在老師的推薦下，我入手瞭這本《數據挖掘與R語言（原書第2版）》。拿到書後，我發現它的深度和廣度都超齣瞭我的預期。書中不僅僅是簡單地介紹R語言的語法和函數，而是將R語言緊密地結閤到數據挖掘的各個環節中，從數據預處理、特徵工程，到模型選擇、算法實現，再到結果評估和可視化，都進行瞭詳細的闡述。特彆是關於各種經典數據挖掘算法的講解，比如決策樹、支持嚮量機、聚類分析等等，都給齣瞭清晰的數學原理和R語言實現方式，並配有相應的代碼示例，非常有助於理解。而且，這本書不僅僅停留在理論層麵，還包含瞭大量的實際案例，這些案例覆蓋瞭金融、營銷、醫療等多個領域，讓我能夠看到數據挖掘在不同場景下的應用，非常有啓發性。對於我們這種需要寫課程論文和畢業設計的學生來說，這本書提供瞭非常寶貴的參考資料和實踐指導，讓我受益匪淺。

評分☆☆☆☆☆

我是一名有著多年工作經驗的商業分析師，在工作中經常需要處理和分析大量的業務數據，以便為公司的決策提供支持。之前我主要依賴Excel和一些簡單的統計軟件，但隨著業務的復雜化和數據量的爆炸式增長，我意識到需要掌握更強大的工具和更深入的技術。通過朋友的推薦，我選擇瞭這本《數據挖掘與R語言（原書第2版）》。這本書最大的亮點在於它能夠將抽象的數據挖掘理論與具體的R語言實踐完美地結閤起來。對於我這種已經有一定業務背景但對編程相對陌生的用戶來說，這本書循序漸進的講解方式非常友好。它從R語言的基礎操作講起，逐步深入到各種數據挖掘的算法和模型。更重要的是，它提供的案例分析非常有針對性，能夠幫助我理解如何將學到的技術應用到實際的商業問題中，比如用戶畫像的構建、銷售預測、客戶流失分析等等。這本書讓我對如何從海量數據中挖掘有價值的信息有瞭更深刻的認識，也提升瞭我解決實際業務問題的能力，是一本非常實用的工具書。

評分☆☆☆☆☆

我是一名喜歡鑽研技術，對新興事物充滿好奇的IT從業者。近年來，隨著大數據時代的到來，數據挖掘和機器學習技術越來越受到重視，我也一直想要係統學習這方麵的知識。在網上搜尋瞭很久，最終選擇瞭這本《數據挖掘與R語言（原書第2版）》。這本書給我的整體感覺就是“乾貨滿滿”，而且非常接地氣。它沒有過多的理論空談，而是將理論知識與大量的實際操作相結閤。從R語言的安裝配置、基礎語法，到如何導入、清洗、轉換數據，再到各種模型（如決策樹、隨機森林、K-means等）的實現和評估，都有非常詳細的步驟和代碼演示。我最喜歡的是書中的項目案例，感覺就像跟著老師在一步步完成一個真實的數據挖掘項目，非常有成就感。而且，這本書在講解過程中，也穿插瞭一些數據挖掘的最佳實踐和注意事項，這對於我們這種在實際工作中可能會遇到各種坑的用戶來說，非常重要。這本書讓我對數據挖掘有瞭一個全麵且深入的認識，也大大提升瞭我用R語言解決實際問題的信心。