編輯推薦
                                    大多數數據挖掘的教材都專注於介紹理論基礎,因而往往難以理解和學習。
本書是介紹寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐進行數據挖掘、集體智慧並構建推薦係統。
本書作者采用在實踐中學的方式,提供瞭Python的代碼和案例,詳細介紹如何應用數據挖掘技術,開發齣實用的推薦係統。
本書英文版在網絡上放齣樣章,得到很多業內知名人士的推薦和好評。
知名技術譯者王斌老師譯作,翻譯質量上乘
數據挖掘一般是指通過算法搜索隱藏於大量的數據之中的信息的過程。眾多的數據挖掘教材都專注於介紹理論基礎,因而往往難以理解和學習。
本書是專門寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐,進行數據挖掘、應用集體智慧並構建推薦係統。
全書共8 章,介紹瞭數據挖掘的基本知識和理論、協同過濾、內容過濾及分類、算法評估、樸素貝葉斯、非結構化文本分類以及聚類等內容;用生動的圖示、大量的錶格、簡明的公式以及實用的Python 代碼示例,闡釋數據挖掘的知識和技能。
每章還給齣瞭習題和練習,幫助讀者鞏固所學的知識。
本書采用"在實踐中學習"的思路來組織內容。建議讀者不是被動地閱讀本書,而是通過課後習題和本書提供的Python 代碼進行實踐。此外,讀者還應當積極參與到數據挖掘技術的編程實踐中。
本書適閤對數據挖掘、數據分析和推薦係統感興趣的程序員及相關領域的從業者閱讀參考;同時,本書也可以作為
一本輕鬆有趣的數據挖掘課程教學參考書。本書由一係列互為基礎的小的知識點纍積而成,學完本書以後,能夠為理解
數據挖掘的各種技術打下堅實的基礎。
讀者可通過http://guidetodatamining.com/ 或http://www.epubit.com.cn 獲取本書相關資源。                 
內容簡介
   數據挖掘一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。大多數數據挖掘的教材都專注於介紹理論基礎,因而往往難以理解和學習。
本書是介紹寫給程序員的一本數據挖掘指南,可以幫助讀者動手實踐進行數據挖掘、集體智慧並構建推薦係統。全書共8章,介紹瞭數據挖掘的基本知識和理論、協同過濾、內容過濾及分類、算法評估、樸素貝葉斯、非結構化文本分類以及聚類等內容。全書采用做中學的方式,用生動的圖示、大量的錶格、簡明的公式,實用的Python代碼示例,闡釋數據挖掘的知識和技能。每章還給齣瞭習題和練習,幫助讀者鞏固所學的知識。
本書專注適閤對數據挖掘、數據分析和推薦係統感興趣的程序員及相關領域的從業者閱讀參考;同時,本書也可以作為一本輕鬆有趣的數據挖掘課程教學參考書。     
作者簡介
   Ron Zacharski是一名軟件開發工程師,曾在威斯康辛大學獲美術學士學位,之後還在明尼蘇達大學獲得瞭計算機科學博士學位。博士後期間,他在愛丁堡大學研究語言學。正是基於廣博的學識,他不僅在新墨西哥州立大學的計算研究實驗室工作,期間還接觸過自然語言處理相關的項目,而該實驗室曾被《連綫》雜誌評為機器翻譯研究領域翹楚。除此之外,他還曾教授計算機科學、語言學、音樂等課程,是一名博學多纔的科技達人。
王斌  博士,中國科學院信息工程研究所研究員,博士生導師,中國科學院大學兼職教授,研究方嚮為信息檢索、自然語言處理與數據挖掘。主持國傢973、863、國傢自然科學基金、國際閤作基金、部委及企業閤作等課題近30項,發錶學術論文130餘篇,領導研製的多個係統上綫使用,曾獲國傢科技進步二等奬和北京市科學技術二等奬各一項。現為中國中文信息學會理事、信息檢索、社會媒體處理、語言與知識計算等多個專業委員會委員、《中文信息學報》編委、中國計算機學會高級會員及中文信息處理專業委員會委員。多次擔任SIGIR、ACL、CIKM等會議的程序委員會委員。《信息檢索導論》、《大數據:互聯網大規模數據挖掘與分布式處理》、《機器學習實戰》、《Mahout實戰》譯者。2006年起在中國科學院大學講授《現代信息檢索》研究生課程,纍計選課人數已超過1500人。迄今培養博士、碩士研究生近40名。     
內頁插圖
          目錄
   目  錄
目錄
第1章  數據挖掘簡介及本書使用方法 1
歡迎來到21世紀 2
並不隻是對象 5
TB級挖掘是現實不是科幻 7
本書體例 9
第2章  協同過濾—愛你所愛 14
如何尋找相似用戶 15
曼哈頓距離 16
歐氏距離 16
N維下的思考 18
一般化 22
Python中數據錶示方法及代碼 24
計算曼哈頓距離的代碼 25
用戶的評級差異 28
皮爾遜相關係數 30
在繼續之前稍微休息一下 35
最後一個公式—餘弦相似度 36
相似度的選擇 40
一些怪異的事情 43
k近鄰 44
Python的一個推薦類 47
一個新數據集 54
第3章  協同過濾—隱式評級及基於物品的過濾 56
隱式評級 57
調整後的餘弦相似度 67
Slope One算法 76
Slope One算法的粗略描述圖 77
基於Python的實現 83
加權Slope One:推薦模塊 88
MovieLens數據集 90
第4章  內容過濾及分類—基於物品屬性的過濾 93
一個簡單的例子 98
用Python實現 101
給齣推薦的原因 102
一個取值範圍的問題 104
歸一化 105
改進的標準分數 109
歸一化 vs. 不歸一化 111
迴到Pandora 112
體育項目的識彆 119
Python編程 123
就是它瞭 133
汽車MPG數據 135
雜談 137
第5章  分類的進一步探討—算法評估及kNN 139
訓練集和測試集 140
10摺交叉驗證的例子 142
混淆矩陣 146
一個編程的例子 148
Kappa統計量 154
近鄰算法的改進 159
一個新數據集及挑戰 163
更多數據、更好的算法以及一輛破公共汽車 168
第6章  概率及樸素貝葉斯—樸素貝葉斯 170
微軟購物車 174
貝葉斯定理 177
為什麼需要貝葉斯定理 185
i100 i500 188
用Python編程實現 191
共和黨 vs. 民主黨 197
數字 205
Python實現 214
這種做法會比近鄰算法好嗎 221
第7章  樸素貝葉斯及文本—非結構化文本分類 226
一個文本正負傾嚮性的自動判定係統 228
訓練階段 232
第8章  聚類—群組發現 256
k-means聚類 281
SSE或散度 289
小結 303
安然公司 305      
前言/序言
       
				 
				
				
					《數據驅動的洞察:現代數據分析與應用》  在當今信息爆炸的時代,數據已不再僅僅是冰冷的數字,而是蘊藏著巨大潛力的寶藏。從海量用戶行為的蛛絲馬跡中挖掘齣有價值的信息,並將其轉化為可執行的策略,是企業在激烈市場競爭中脫穎而齣的關鍵。本書《數據驅動的洞察:現代數據分析與應用》正是為幫助讀者掌握這一核心能力而精心打造。我們深知,數據分析的魅力並非隻屬於統計學專傢或數學傢,而是每一位渴望理解數據、駕馭數據、並從中獲益的專業人士。  本書將帶領您踏上一段係統而深入的學習之旅,從數據分析的基本概念齣發,逐步深入到各種先進的分析技術和實際應用場景。我們力求以清晰的邏輯、豐富的案例和實用的指導,幫助您建立起紮實的數據分析理論基礎,並掌握將理論付諸實踐的技能。  第一部分:數據分析的基石——理解與準備  在深入探索數據分析的海洋之前,我們首先需要建立堅固的基石。本部分將引導您理解數據分析在現代商業環境中的核心地位,以及它如何賦能決策、驅動創新。     數據分析的價值與維度: 我們將從宏觀角度探討數據分析如何成為企業戰略的關鍵組成部分。您將瞭解不同類型的數據(結構化、非結構化、半結構化)及其潛在價值。數據分析不僅僅是簡單的報錶生成,它更是關於發現模式、預測趨勢、理解因果關係、以及優化業務流程的係統性工程。我們將深入探討數據分析在市場營銷、産品開發、運營優化、風險管理等多個領域的實際應用,讓您體會到數據驅動的強大力量。     數據采集與預處理: 數據的質量直接決定瞭分析的有效性。本部分將詳細講解數據采集的各種渠道和方法,包括數據庫查詢、API接口、網絡爬蟲、傳感器數據等。更重要的是,我們將花費大量篇幅講解數據預處理的核心技術。這包括:        數據清洗: 如何識彆和處理缺失值、異常值、重復數據,以及如何對數據進行一緻性檢查。我們將介紹多種填充缺失值的方法(均值填充、中位數填充、迴歸填充等)及其適用場景,並討論異常值檢測的技術(如IQR、Z-score、聚類等)。        數據轉換: 如何對數據進行標準化(Standardization)和歸一化(Normalization),以消除不同量綱對模型的影響。我們將解釋何時需要對數據進行對數轉換、平方根轉換等,以處理偏態數據。        特徵工程: 這是提升模型性能的關鍵環節。我們將講解如何從原始數據中創建新的、更有意義的特徵,例如時間序列的滯後特徵、組閤特徵、編碼分類變量(如獨熱編碼、標簽編碼、目標編碼)等。您將學習如何利用領域知識來設計有效的特徵,使模型能夠更好地捕捉數據中的信號。        數據集成: 如何將來自不同源頭的數據進行閤並,解決數據格式不一緻、字段命名衝突等問題。     探索性數據分析(EDA): 在正式建模之前,深入理解數據的分布、關係和潛在模式至關重要。本部分將引導您掌握EDA的藝術,包括:        描述性統計: 計算均值、中位數、方差、標準差、百分位數等,全麵刻畫數據的中心趨勢和離散程度。        數據可視化: 學會利用各種圖錶(直方圖、箱綫圖、散點圖、摺綫圖、熱力圖等)來直觀地展示數據分布、變量之間的關係、以及數據中的趨勢和異常。我們將重點介紹如何選擇閤適的圖錶類型來傳達特定的信息,以及如何通過可視化來發現隱藏的洞察。        相關性分析: 理解變量之間的綫性關係,利用相關係數(如Pearson、Spearman)來量化相關性強度,並通過熱力圖可視化。  第二部分:核心分析技術——挖掘數據的深度價值  掌握瞭數據準備和探索的基礎後,我們將進入數據分析的核心技術領域。本部分將係統介紹各種經典而強大的分析模型和算法。     統計建模基礎:        迴歸分析: 從簡單綫性迴歸到多元綫性迴歸,理解模型構建、參數估計、假設檢驗以及模型評估(R²、 Adjusted R²、p值等)。我們將討論多重共綫性、異方差性等問題及其處理方法。        分類模型:            邏輯迴歸: 理解其原理、輸齣解釋以及如何用於二分類和多分類問題。            決策樹: 學習其分裂標準(如基尼指數、信息增益),理解剪枝技術,以及如何構建和解釋決策樹模型。            支持嚮量機(SVM): 介紹其核函數(綫性、多項式、徑嚮基函數)和最大間隔原理,以及其在分類和迴歸中的應用。     聚類分析:        K-Means聚類: 理解其算法流程、初始化方法、以及選擇閤適的k值(如肘部法則、輪廓係數)。        層次聚類: 學習其凝聚型和分裂型方法,以及如何解讀樹狀圖。        DBSCAN: 掌握基於密度的聚類方法,以及其在發現任意形狀簇中的優勢。     降維技術:        主成分分析(PCA): 理解其目標是找到數據方差最大的方嚮,以及如何通過最大化方差來降低數據維度,同時保留盡可能多的信息。        t-SNE: 學習其在可視化高維數據中的應用,以及如何保留數據的局部結構。     關聯規則挖掘:        Apriori算法: 學習如何發現頻繁項集,以及如何從頻繁項集中生成置信度高的關聯規則。我們將討論支持度、置信度和提升度等度量指標。     時間序列分析:        平穩性、自相關性與偏自相關性: 理解時間序列數據的基本特性。        ARIMA模型: 掌握其構成(AR, I, MA),以及如何識彆和擬閤ARIMA模型進行預測。        指數平滑法: 介紹其簡單指數平滑、霍爾特指數平滑和霍爾特-溫特指數平滑,以及在短期預測中的應用。  第三部分:高級分析方法與實踐——麵嚮應用的深度挖掘  在掌握瞭基礎和核心技術後,本部分將進一步拓展您的視野,介紹更先進的分析技術,並強調在實際業務場景中的應用。     機器學習導論:        監督學習與無監督學習: 明確兩者的區彆與聯係。        模型評估與選擇: 學習交叉驗證、留一法等技術,以及如何根據業務目標選擇閤適的評估指標(準確率、精確率、召迴率、F1分數、AUC等)。        模型調優: 掌握網格搜索、隨機搜索等超參數優化方法,以及正則化技術(L1、L2)來防止過擬閤。     預測模型進階:        集成學習: 深入理解Bagging(如隨機森林)和Boosting(如AdaBoost, Gradient Boosting, XGBoost, LightGBM)的工作原理,以及它們如何通過組閤多個弱學習器來構建強大的預測模型。        深度學習基礎(概念性介紹): 簡要介紹神經網絡、捲積神經網絡(CNN)和循環神經網絡(RNN)在圖像識彆、自然語言處理等領域的應用潛力,為讀者提供進一步探索的方嚮。     文本挖掘與自然語言處理(NLP)基礎:        文本預處理: 分詞、詞性標注、去除停用詞、詞乾提取、詞形還原等。        特徵提取: TF-IDF、詞袋模型(Bag-of-Words)、Word Embeddings(如Word2Vec, GloVe)的概念和應用。        情感分析與主題建模: 介紹如何從文本中提取情感傾嚮和潛在主題。     推薦係統基礎:        協同過濾(User-based, Item-based): 理解其核心思想和實現方式。        基於內容的推薦: 介紹如何根據物品的屬性來匹配用戶偏好。        混閤推薦係統: 探討如何結閤多種方法來提升推薦效果。     數據分析流程與項目實踐:         CRISP-DM方法論: 介紹通用的數據挖掘項目流程,從業務理解、數據理解、數據準備、建模、評估到部署。        案例研究: 通過多個貼近實際的案例,演示如何應用前麵章節介紹的技術來解決具體的業務問題,例如:            客戶細分與精準營銷: 如何利用聚類分析將客戶分成不同的群體,並為每個群體製定個性化的營銷策略。            流失用戶預測: 如何構建分類模型來識彆有流失風險的客戶,並采取措施進行挽留。            銷售額預測: 如何利用時間序列模型或迴歸模型來預測未來的銷售趨勢。            異常交易檢測: 如何利用聚類或異常檢測算法來識彆潛在的欺詐行為。  第四部分:工具與實踐環境——讓數據分析觸手可及  理論的學習需要與實踐相結閤。本部分將介紹常用的數據分析工具和環境,幫助您輕鬆上手。     編程語言與庫:        Python: 作為數據科學領域最流行的語言,我們將介紹其在數據分析中的核心庫,如NumPy(數值計算)、Pandas(數據處理和分析)、Matplotlib/Seaborn(數據可視化)、Scikit-learn(機器學習)。        SQL: 強調其作為數據庫查詢語言的重要性,以及如何編寫有效的SQL語句來提取和操作數據。     數據可視化工具:        Tableau / Power BI(概念性介紹): 簡要介紹這些商業智能工具在創建交互式儀錶闆和報告中的強大功能,為不熟悉編程的讀者提供另一種選擇。     開發環境:        Jupyter Notebook / JupyterLab: 介紹其作為交互式計算環境的優勢,方便代碼編寫、執行、可視化和文檔撰寫。     部署與應用(概念性介紹): 簡要提及如何將訓練好的模型部署到生産環境,以及如何構建數據驅動的應用。  學習本書,您將能夠:     建立清晰的數據分析思維框架: 從理解問題到提齣解決方案,掌握整個數據分析流程。    掌握核心的數據處理與清洗技術: 確保您分析的數據是乾淨、可靠的。    熟練運用多種統計與機器學習模型: 能夠根據業務需求選擇並應用閤適的分析方法。    深入理解數據背後的模式與洞察: 發現隱藏的趨勢、關聯和驅動因素。    將數據分析結果轉化為可執行的業務策略: 賦能您的決策,推動業務增長。    提升您在數據驅動時代的競爭力: 成為一名能夠用數據說話的優秀專業人士。  《數據驅動的洞察:現代數據分析與應用》不僅僅是一本技術手冊,更是一份引您入門、伴您成長的路綫圖。無論您是想在現有工作中提升數據分析能力,還是渴望跨入數據科學領域,本書都將是您寶貴的夥伴。讓我們一起,用數據點亮智慧,驅動未來!