10餘位數據挖掘領域資深專傢和科研人員,10餘年大數據挖掘谘詢與實施經驗結晶。
本書注重易用性和實踐性,旨在讓讀者快速掌握運用Python語言進行數據分析與挖掘的方法,從應用層麵講解初學者急切需要瞭解的功能,深入淺齣地介紹瞭數據挖掘中常用的建模實現函數。
這是一本適閤教學和零基礎自學的Python與數據挖掘的教程,即便你完全沒有Python編程基礎和數據挖掘基礎,根據本書中的理論知識和上機實踐,你也能迅速掌握如何使用Python進行數據挖掘。本書已經被多所高校預定為教材,為瞭便於教學,書中還提供瞭大量的上機實驗和教學資源。
本書主要分為兩篇:
基礎篇(1~6章):第1章旨在讓讀者從全局把握數據挖掘、建模工具以及Python開發環境的搭建;第2章正式開始講解Python的基礎知識,包括操作符、變量類型、流程控製、數據結構等內容;第3、4章主要對Python麵嚮對象的特性進行介紹,包括函數、類與對象等基本概念;第5章介紹主流的數據分析與挖掘的模塊,以及其中具體的方法及對應的功能;第6章繼續拓展瞭模塊的相關內容,介紹圖錶繪製的專用模塊(Matplotlib和Bokeh),深入淺齣地展示如何方便地繪製點、綫、圖等。
建模應用篇(7~11章):主要對數據挖掘中的常用算法進行介紹,強調在Python中對應函數的使用方法及其結果的解釋說明。內容涵蓋五大主流的數據挖掘算法,包括分類與預測、聚類分析建模、關聯規則分析、智能推薦和時間序列分析。按照從模型建立到模型評價的架構進行介紹,使讀者熟練掌握從建模到對模型評價的完整建模過程。
張良均
資深大數據挖掘專傢,高級信息項目管理師,有近20年的大數據挖掘應用、谘詢和培訓經驗,被稱為“中國大數據挖掘培訓教父”。為電信、電力、政府、互聯網、生産製造、零售、銀行、生物、化工、醫藥等多個行業上百傢大型企業提供過數據挖掘應用與谘詢服務,實踐經驗豐富。
現任廣東工業大學、華南師範大學、華南農業大學、貴州師範學院、韓山師範學院、廣東技術師範學院、廣西科技大學的兼職教授。著有《神經網絡實用教程》《數據挖掘:實用案例分析》《MATLAB數據分析與挖掘實戰》《R語言數據分析與挖掘實戰》《Python數據分析與挖掘實戰》《Hadoop大數據分析與挖掘實戰》《R語言與數據挖掘》等暢銷圖書。
前言
第一部分 基礎篇
第1章 數據挖掘概述 2
1.1 數據挖掘簡介 2
1.2 工具簡介 3
1.2.1 WEKA 3
1.2.2 RapidMiner 4
1.2.3 Python 5
1.2.4 R 5
1.3 Python開發環境的搭建 6
1.3.1 Python安裝 6
1.3.2 Python初識 11
1.3.3 與讀者的約定 14
1.4 小結 15
第2章 Python基礎入門 16
2.1 常用操作符 16
2.1.1 算術操作符 17
2.1.2 賦值操作符 17
2.1.3 比較操作符 18
2.1.4 邏輯操作符 18
2.1.5 操作符優先級 18
2.2 數字數據 19
2.2.1 變量與賦值 19
2.2.2 數字數據類型 20
2.3 流程控製 20
2.3.1 if語句 21
2.3.2 while循環 23
2.3.3 for循環 25
2.4 數據結構 27
2.4.1 列錶 28
2.4.2 字符串 31
2.4.3 元組 35
2.4.4 字典 36
2.4.5 集閤 39
2.5 文件的讀寫 40
2.5.1 改變工作目錄 40
2.5.2 txt文件讀取 41
2.5.3 csv文件讀取 42
2.5.4 文件輸齣 43
2.5.5 使用JSON處理數據 43
2.6 上機實驗 44
第3章 函數 47
3.1 創建函數 48
3.2 函數參數 50
3.3 可變對象與不可變對象 52
3.4 作用域 53
3.5 上機實驗 55
第4章 麵嚮對象編程 56
4.1 簡介 56
4.2 類與對象 58
4.3 __init__方法 59
4.4 對象的方法 61
4.5 繼承 65
4.6 上機實驗 68
第5章 Python實用模塊 69
5.1 什麼是模塊 69
5.2 NumPy 70
5.3 Pandas 75
5.4 SciPy 81
5.5 scikit-learn 84
5.6 其他Python常用模塊 87
5.7 小結 88
5.8 上機實驗 88
第6章 圖錶繪製入門 89
6.1 Matplotlib 89
6.2 Bokeh 94
6.3 其他優秀的繪圖模塊 97
6.4 小結 97
6.5 上機實驗 97
第二部分 建模應用篇
第7章 分類與預測 100
7.1 迴歸分析 100
7.1.1 綫性迴歸 101
7.1.2 邏輯迴歸 104
7.2 決策樹 107
7.2.1 ID3算法 107
7.2.2 其他樹模型 111
7.3 人工神經網絡 113
7.4 kNN算法 122
7.5 樸素貝葉斯分類算法 124
7.6 小結 127
7.7 上機實驗 127
第8章 聚類分析建模 129
8.1 K-Means聚類分析函數 129
8.2 係統聚類算法 133
8.3 DBSCAN聚類算法 138
8.4 上機實驗 142
第9章 關聯規則分析 144
9.1 Apriori關聯規則算法 145
9.2 Apriori在Python中的實現 146
9.3 小結 149
9.4 上機實驗 149
第10章 智能推薦 151
10.1 基於用戶的協同過濾算法 152
10.2 基於用戶的協同過濾算法在Python中的實現 154
10.3 小結 157
10.4 上機實驗 157
第11章 時間序列分析 159
11.1 ARIMA模型 159
11.2 小結 171
11.3 上機實驗 172
參考文獻 174
Preface前 言為
什麼要寫本書?Python是什麼?Python是一種帶有動態語義的、解釋性的、麵嚮對象的高級編程語言。其高級內置數據結構,結閤動態類型和動態綁定,使其對於敏捷軟件開發非常具有吸引力。同時,Python作為腳本型(膠水)語言連接現有的組件也十分高效。Python語法簡潔,可讀性強,從而能降低程序的維護成本。不僅如此,Python支持模塊和包,鼓勵程序模塊化和代碼重用。
Python語言的解釋性使其語法更接近人類的錶達和思維過程,開發程序的效率極高。習慣使用Python者,總習慣在介紹Python時強調一句話:“人生苦短,我用Python。”由於沒有編譯步驟,“寫代碼—測試—調試”的流程能被快速地反復執行。
作為一款用途廣泛的語言,Python在數據分析與機器學習領域的錶現,稱得上“一任群芳妒”。2016年3月,國外知名技術問答社區StackOverflow發布瞭《2016年開發者調查報告》。此調查號稱是有史以來最為全麵的開發者調查。其中,數據科學傢的十大技術棧中,有7個包含Python。具體來說,數據科學傢中有63%正在使用Python,44%正在使用R語言。而且,27%的人同時使用這兩種語言。Python還在“最多人使用的技術”“最受歡迎技術”“需求度最高技術”等榜單中名列前十。
Python的明顯優勢:
Python作為一款優雅、簡潔的開源編程語言,吸引瞭世界各地頂尖的編程愛好者的注意力。每天都有數量眾多的開源項目更新自己的功能,作為第三方模塊為其他開發者提供更加高效、便利的支持。
Python提供瞭豐富的API和工具,以便程序員能夠輕鬆地使用C、C++、Cython來編寫擴充模塊,從而集成多種語言的代碼,協同工作。一些算法在底層用C實現後,封裝在Python模塊中,性能非常高效。
Python受到世界各地開發者的一緻喜愛,在世界範圍內被廣泛使用。這意味著讀者可以通過查看代碼範例,快速學習和掌握相關內容。
Python語言簡單易學,語法清晰。Python開發者的哲學是“用一種方法,最好是隻有一種方法來做一件事”。通常,相較其他語言,Python的源代碼被認為具有更好的可讀性。
2004年,Python 已在Google 內部使用,他們的宗旨是:Python where we can,C++ where we must,即在操控硬件的場閤使用C++,在快速開發時使用Python。
總的來說,Python是一款用於數據統計、分析、可視化等任務,以及機器學習、人工智能等領域的高效開發語言。它能滿足幾乎所有數據挖掘下所需的數據處理、統計模型和圖錶繪製等功能需求。大量的第三方模塊所支持的內容涵蓋瞭從統計計算到機器學習,從金融分析到生物信息,從社會網絡分析到自然語言處理,從各種數據庫各種語言接口到高性能計算模型等領域。隨著大數據時代的來臨,數據挖掘將更加廣泛地滲透到各行各業中去,而Python作為數據挖掘裏的熱門工具,將會有更多不同行業的人加入到Python愛好者的行列中來。完全麵嚮對象的Python的教學工作也將成為高校中數學與統計學專業的重點發展對象,這是大數據時代下的必然趨勢。
本書特色筆者從實際應用齣發,結閤實際例子及應用場景,深入淺齣地介紹Python開發環境的搭建、Python基礎入門、函數、麵嚮對象編程、實用模塊和圖錶繪製及常用的建模算法在Python中的實現方式。本書的編排以Python語言的函數應用為主,先介紹瞭函數的應用場景及使用格式,再給齣函數的實際使用示例,最後對函數的運行結果做齣瞭解釋,將掌握函數應用的所需知識點按照實際使用的流程展示齣來。
為方便讀者理解Python語言中相關函數的使用,本書配套提供瞭書中使用的示例的代碼及所用的數據,讀者可以從“泰迪杯”全國數據挖掘挑戰賽網站(http://www.tipdm.org/ts/755.jhtml)上免費下載。讀者也可通過熱綫電話(40068-40020)、企業QQ(40068-40020)或以下微信公眾號谘詢獲取。
TipDM張良均〈大數據挖掘産品與服務〉本書適用對象開設有數據挖掘課程的高校教師和學生。
目前國內不少高校將數據挖掘引入本科教學中,在數學、計算機、自動化、電子信息、金融等專業開設瞭數據挖掘技術相關的課程,但目前這一課程的教學使用的工具仍然為SPSS、SAS等傳統統計工具,並沒有使用Python作為教學工具。本書提供瞭有關Python語言的從安裝到使用的一係列知識,將能有效指導高校教師和學生使用Python。
數據挖掘開發人員。
這類人員可以在理解數據挖掘應用需求和設計方案的基礎上,結閤本書提供的Python的使用方法快速入門並完成數據挖掘應用的編程實現。
進行數據挖掘應用研究的科研人員。
許多科研院所為瞭更好地對科研工作進行管理,紛紛開發瞭適應自身特點的科研業務管理係統,並在使用過程中積纍瞭大量的科研信息數據。Python可以提供一個優異的環境對這些數據進行挖掘分析應用。
關注高級數據分析的人員。
Python作為一個廣泛用於數據挖掘領域的編程語言,能為數據分析人員提供快速的、可靠的分析依據。
拿到《Python與數據挖掘》這本書,我原本是帶著解決工作中實際問題的期望,希望能夠快速上手,解決一些數據分析的難題。雖然這本書並沒有直接涵蓋我遇到的具體算法或業務場景,但它在基礎概念的梳理上,絕對是值得稱道的。書中對數據挖掘流程的講解,從數據預處理的繁瑣細節,到特徵工程的巧妙思路,再到模型選擇和評估的嚴謹邏輯,都闡述得非常清晰。尤其是在數據清洗方麵,作者花瞭大量筆墨去講解缺失值、異常值、重復值等問題的處理方法,並結閤Python的Pandas庫給齣瞭具體代碼示例,這對於初學者來說,無疑是打下瞭堅實的基礎。我之前常常在數據清洗階段感到無從下手,這本書則像一座燈塔,指引我一步步剋服瞭這些睏難。盡管書中的模型部分並沒有深入到我想要的那種復雜算法,但其對邏輯迴歸、決策樹等基本模型的原理剖析,以及如何使用Scikit-learn庫進行實現,都為我理解更高級的模型奠定瞭概念上的基礎。我開始意識到,很多復雜的模型其實都是在這些基本模型的基礎上進行演變和組閤的。總而言之,這本書雖然沒有直接解決我特定的技術難題,但它為我係統性地構建瞭數據挖掘的知識框架,讓我對整個數據挖掘過程有瞭更宏觀和深入的認識,這對於我未來的學習和實踐,其價值是不可估量的。
評分《Python與數據挖掘》這本書,對我而言,是一次關於“洞察力”的啓發。它並沒有直接教我如何寫齣驚艷的代碼,或者如何實現某個高精尖的算法,而是讓我更深刻地理解瞭“數據”本身以及如何從數據中提取有價值的信息。書中的一個章節,花瞭相當大的篇幅來討論數據可視化在探索性數據分析(EDA)中的重要性。作者通過Matplotlib和Seaborn庫,展示瞭如何繪製齣各種類型的圖錶,從簡單的柱狀圖、摺綫圖,到更復雜的散點圖矩陣、熱力圖等等。這些可視化圖錶不僅僅是數據的堆砌,更是揭示數據內在規律和隱藏模式的“眼睛”。通過書中的示例,我學會瞭如何用圖錶來識彆數據的分布情況、變量之間的相關性、是否存在異常值等等。這比僅僅看一堆數字要直觀得多,也有效得多。雖然書中關於高級模型的部分我還在消化中,但光是EDA部分,就足以讓我對數據分析有瞭全新的認識。我開始明白,很多時候,我們並不需要復雜的算法,一個精心設計的可視化圖錶,就足以讓我們發現問題、找到方嚮。這本書讓我意識到,在投入大量時間去構建模型之前,先花時間去“看懂”數據,是多麼關鍵的一步。
評分我對《Python與數據挖掘》這本書的初衷,是希望能找到一些能夠提升我項目效率的技巧和方法。這本書在關於“模型性能評估”的章節,給我留下瞭深刻的印象。我之前在做項目時,常常會陷入一個誤區,就是過度關注模型的預測準確率,而忽略瞭其他更重要的評估指標。這本書詳細介紹瞭諸如精確率(Precision)、召迴率(Recall)、F1分數、ROC麯綫和AUC值等評估指標,並解釋瞭它們在不同場景下的意義和適用性。作者通過一些實際的例子,演示瞭如何使用Scikit-learn庫來計算和繪製這些指標,以及如何根據這些指標來選擇最優的模型。這讓我意識到,在很多實際應用中,比如垃圾郵件檢測或者疾病診斷,僅僅追求高準確率是遠遠不夠的,還需要權衡漏報(False Positive)和誤報(False Negative)的成本。這本書的講解,讓我對模型評估有瞭更全麵和深入的理解,也讓我明白,選擇閤適的評估指標,比盲目追求某個高數值的指標更為重要。雖然書中關於模型優化的具體策略我還需要進一步實踐,但光是這部分關於評估的清晰講解,就足以讓我避免很多潛在的錯誤,並且能更有效地衡量我項目的進展。
評分盡管《Python與數據挖掘》這本書的某些章節內容,並不是我目前研究領域的直接切入點,但它為我提供瞭一個非常寶貴的“知識儲備庫”。我是一個對數據安全領域比較感興趣的研究生,在處理大量的用戶行為日誌數據時,經常會遇到需要對數據進行異常檢測的需求。這本書中關於異常檢測的章節,雖然使用的是一些通用的數據集和方法,但其對不同類型異常(如點異常、上下文異常、集體異常)的分類和解釋,以及如何使用Isolation Forest、One-Class SVM等方法進行檢測的講解,都讓我受益匪淺。我之前嘗試過一些零散的資料,對這些概念一直模糊不清,但這本書通過清晰的邏輯和翔實的案例,幫助我理清瞭思路。即使書中提到的具體算法實現細節,我可能還需要進一步查閱資料來深入理解,但這本書已經為我指明瞭方嚮,讓我知道從何處著手去解決我在數據安全領域遇到的異常檢測問題。它就像一份詳盡的地圖,讓我知道寶藏可能藏在哪裏,以及如何開始尋寶的旅程。
評分閱讀《Python與數據挖掘》這本書,我最大的感受是它的“實操性”。雖然我是一個對數據挖掘有濃厚興趣但技術基礎相對薄弱的讀者,這本書的講解方式卻讓我覺得非常易於理解和上手。作者非常注重理論與實踐的結閤,每一章節的講解都伴隨著相應的Python代碼示例,並且這些代碼都是可以直接運行的。我印象特彆深刻的是關於文本數據挖掘的部分,書中詳細介紹瞭如何使用NLTK和spaCy庫進行文本預處理,例如分詞、詞性標注、去除停用詞等,這些操作直接解決瞭我在處理大量文本數據時遇到的瓶頸。我之前嘗試過一些零散的教程,但總覺得不成體係,容易遺漏重要的步驟。而這本書則提供瞭一個完整的流程,從文本的讀取、清洗,到特徵提取(如TF-IDF),再到構建簡單的文本分類模型,都講解得非常到位。即使書中涉及的某些模型(比如我不太熟悉的某些聚類算法)我暫時沒有用上,但通過書中提供的代碼模闆和講解,我能夠快速地理解其工作原理,並且可以根據自己的需求進行修改和擴展。這本書讓我覺得,數據挖掘並不是遙不可及的科學,而是可以通過學習Python和掌握一些基本工具就能實際操作的技能。
評分還好,包裝破損,有些失望
評分一直京東買東西,這次也沒失望,很驚艷,孩子很喜歡,以後買東西就京東!
評分趕上活動,多買兩本,好好學習下scala和spark
評分還可以 正在看
評分第一部分是基礎篇(第1~5章),第1章的主要內容是數據挖掘概述;第2章對Python以及本書所用到的數據挖掘建模庫進行瞭簡明扼要的說明;第3章、第4章、第5章對數據挖掘的建模過程,包括數據探索、數據預處理及挖掘建模的常用算法與原理進行瞭介紹。第二部分是實戰篇(第6~15章),重點對數據挖掘技術在電力、航空、醫療、互聯網、生産製造以及公共服務等行業的應用進行瞭分析。在案例結構組織上,本書是按照先介紹案例背景與挖掘目標,再闡述分析方法與過程,最後完成模型構建的順序進行的,在建模過程關鍵環節,穿插程序實現代碼。最後通過上機實踐,加深數據挖掘技術在案例應用中的理解。
評分好書!好書!期待和數據的對話,內容豐富,值得學習!
評分書很好,這次采購的都是Python,學習走起
評分昨天下的單 今天就到瞭 書是正版 我很滿意
評分京東年中購書活動很好,很多喜歡的書都屯瞭,慢慢看吧,希望自己能多讀書並從中體會到樂趣找尋到真理,另外感謝東哥哈哈這麼好的活動
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有