Python網絡數據爬取及分析從入門到精通(爬取篇)

Python網絡數據爬取及分析從入門到精通(爬取篇) pdf epub mobi txt 電子書 下載 2025

楊秀璋,顔娜 著
圖書標籤:
  • Python
  • 爬蟲
  • 網絡爬取
  • 數據分析
  • 實戰
  • 入門
  • 數據獲取
  • 爬取
  • 精通
  • 網絡數據
想要找書就要到 靜思書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 北京航空航天大學齣版社
ISBN:9787512427129
版次:1
商品編碼:12373850
包裝:平裝
開本:小全開
齣版時間:2018-06-01
用紙:膠版紙

具體描述

産品特色

編輯推薦

Python網絡數據爬取及分析從入門到精通(爬取篇)

這是一套以實例為主、使用Python語言講解網絡數據爬蟲及分析的實戰指南。本套書通俗易懂,涵蓋瞭Python基礎知識、數據爬取、數據分析、數據預處理、數據可視化、數據存儲、算法評估等多方麵知識,每一部分知識都從安裝過程、導入擴展包到算法原理、基礎語法,再結閤實例進行詳細講解。

本套書包括兩本:《Python網絡數據爬取及分析從入門到精通(爬取篇)》和《Python網絡數據爬取及分析從入門到精通(分析篇)》。

看完此書,真正讓你做到從入門到精通。


內容簡介

Python網絡數據爬取及分析從入門到精通(爬取篇)

本書采用通俗易懂的語言、豐富多彩的實例,詳細介紹瞭使用Python語言進行網絡數據爬取的知識,主要內容包括Python語法、正則錶達式、BeautifulSoup技術、Selenium技術、Scrapy框架、數據庫存儲等,同時詳細介紹瞭爬取網站和博客內容、電影數據信息、招聘信息、在綫百科知識、微博內容、農産品信息等實例。

書中所有知識點都結閤經典實例進行介紹,涉及的實例都給齣瞭詳細的分析流程,程序代碼都給齣瞭具體的注釋,同時采用圖文結閤的形式講解,讓讀者能更加輕鬆地領會Python網絡數據爬蟲的精髓,並快速提高自己的開發能力。

本書即可作為Python開發入門者的自學用書,也可作為高等院校數據爬取、數據分析、數據挖掘、大數據等相關專業的教學參考書或實驗指導書,還可供Python開發人員查閱、參考。


作者簡介

楊秀璋,畢業於北京理工大學軟件學院,長期從事Web數據挖掘、Python數據分析、網絡數據爬取工作及研究。他現任教於貴州財經大學信息學院,主講“數據挖掘與分析”“大數據技術及應用”課程,並從事大數據分析、數據挖掘、知識圖譜等領域的項目研究與開發;有多年的Python編程、數據分析及知識圖譜研究經驗,實戰經驗較為豐富。

此外,他還積極分享編程知識和開源代碼編寫經驗,先後在CSDN、博客園、阿裏雲棲社區撰寫博客,僅在CSDN就分享瞭300多篇原創文章,開設瞭11個專欄,纍計閱讀量超過250萬人次。


內頁插圖

目錄

第1章 網絡數據爬取概述…………………………………………………………… 1

1.1 網絡爬蟲 ……………………………………………………………………… 1

1.2 相關技術 ……………………………………………………………………… 3

1.2.1 HTTP …………………………………………………………………… 3

1.2.2 HTML…………………………………………………………………… 3

1.2.3 Python …………………………………………………………………… 5

1.3 本章小結 ……………………………………………………………………… 5

參考文獻……………………………………………………………………………… 5

第2章 Python知識初學 …………………………………………………………… 6

2.1 Python簡介 …………………………………………………………………… 6

2.2 基礎語法……………………………………………………………………… 11

2.2.1 縮進與注釋……………………………………………………………… 11

2.2.2 變量與常量……………………………………………………………… 12

2.2.3 輸入與輸齣……………………………………………………………… 14

2.2.4 賦值與錶達式…………………………………………………………… 16

2.3 數據類型……………………………………………………………………… 16

2.3.1 數字類型………………………………………………………………… 16

2.3.2 字符串類型……………………………………………………………… 17

2.3.3 列錶類型………………………………………………………………… 17

2.3.4 元組類型………………………………………………………………… 19

2.3.5 字典類型………………………………………………………………… 19

2.4 條件語句……………………………………………………………………… 19

2.4.1 單分支…………………………………………………………………… 20

2.4.2 二分支…………………………………………………………………… 20

2.4.3 多分支…………………………………………………………………… 21

2.5 循環語句……………………………………………………………………… 22

2.5.1 while循環 ……………………………………………………………… 22

2.5.2 for循環 ………………………………………………………………… 24

2.5.3 break和continue語句 ………………………………………………… 24

2.6 函 數………………………………………………………………………… 25

2.6.1 自定義函數……………………………………………………………… 26

2.6.2 常見內部庫函數………………………………………………………… 27

2.6.3 第三方庫函數…………………………………………………………… 29

2.7 字符串操作…………………………………………………………………… 30

2.8 文件操作……………………………………………………………………… 32

2.8.1 打開文件………………………………………………………………… 32

2.8.2 讀/寫文件 ……………………………………………………………… 32

2.8.3 關閉文件………………………………………………………………… 33

2.8.4 循環遍曆文件…………………………………………………………… 34

2.9 麵嚮對象……………………………………………………………………… 34

2.10 本章小結 …………………………………………………………………… 36

參考文獻 …………………………………………………………………………… 36

第3章 正則錶達式爬蟲之牛刀小試 ……………………………………………… 37

3.1 正則錶達式…………………………………………………………………… 37

3.2 Python網絡數據爬取的常用模塊 ………………………………………… 39

3.2.1 urllib模塊 ……………………………………………………………… 39

3.2.2 urlparse模塊 …………………………………………………………… 42

3.2.3 requests模塊 …………………………………………………………… 44

3.3 正則錶達式爬取網絡數據的常見方法……………………………………… 45

3.3.1 爬取標簽間的內容……………………………………………………… 45

3.3.2 爬取標簽中的參數……………………………………………………… 49

3.3.3 字符串處理及替換……………………………………………………… 50

3.4 個人博客爬取實例…………………………………………………………… 52

3.4.1 分析過程………………………………………………………………… 52

3.4.2 代碼實現………………………………………………………………… 57

3.5 本章小結……………………………………………………………………… 59

參考文獻 …………………………………………………………………………… 59

第4章 BeautifulSoup技術 ………………………………………………………… 60

4.1 安裝BeautifulSoup ………………………………………………………… 60

4.1.1 Python 2.7安裝BeautifulSoup ……………………………………… 60

4.1.2 pip安裝擴展庫 ………………………………………………………… 63

4.2 快速開始BeautifulSoup解析 ……………………………………………… 67

4.2.1 BeautifulSoup解析 HTML …………………………………………… 68

4.2.2 簡單獲取網頁標簽信息………………………………………………… 71

4.2.3 定位標簽並獲取內容…………………………………………………… 72

4.3 深入瞭解BeautifulSoup …………………………………………………… 73

4.3.1 BeautifulSoup對象 …………………………………………………… 74

4.3.2 遍曆文檔樹……………………………………………………………… 79

4.3.3 搜索文檔樹……………………………………………………………… 82

4.4 BeautifulSoup簡單爬取個人博客網站 …………………………………… 84

4.5 本章小結……………………………………………………………………… 87

參考文獻 …………………………………………………………………………… 87

第5章 BeautifulSoup爬取電影信息 ……………………………………………… 88

5.1 分析網頁DOM 樹結構……………………………………………………… 88

5.1.1 分析網頁結構及簡單爬取……………………………………………… 88

5.1.2 定位節點及網頁翻頁分析……………………………………………… 91

5.2 爬取豆瓣電影信息…………………………………………………………… 94

5.3 鏈接跳轉分析及詳情頁麵爬取……………………………………………… 98

5.4 本章小結 …………………………………………………………………… 104

參考文獻…………………………………………………………………………… 104

第6章 Python數據庫知識 ……………………………………………………… 105

6.1 MySQL數據庫 …………………………………………………………… 105

6.1.1 MySQL的安裝與配置 ……………………………………………… 105

6.1.2 SQL基礎語句詳解 …………………………………………………… 112

6.2 Python操作 MySQL數據庫 ……………………………………………… 119

6.2.1 安裝 MySQL擴展庫 ………………………………………………… 119

6.2.2 程序接口DB-API …………………………………………………… 121

6.2.3 Python調用 MySQLdb擴展庫 ……………………………………… 122

6.3 Python操作SQLite 3數__________據庫 …………………………………………… 126

6.4 本章小結 …………………………………………………………………… 129

參考文獻…………………………………………………………………………… 129

第7章 基於數據庫存儲的BeautifulSoup招聘爬蟲 …………………………… 130

7.1 知識圖譜和智聯招聘 ……………………………………………………… 130

7.2 BeautifulSoup爬取招聘信息 ……………………………………………… 132

7.2.1 分析網頁超鏈接及跳轉處理 ………………………………………… 132

7.2.2 DOM 樹節點分析及網頁爬取 ……………………………………… 135

7.3 Navicat for MySQL工具操作數據庫 …………………………………… 137

7.3.1 連接數據庫 …………………………………………………………… 137

7.3.2 創建數據庫 …………………………………………………………… 139

7.3.3 創建錶 ………………………………………………………………… 141

7.3.4 數據庫增刪改查操作 ………………………………………………… 143

7.4 MySQL數據庫存儲招聘信息 …………………………………………… 146

7.4.1 MySQL操作數據庫 ………………………………………………… 146

7.4.2 代碼實現 ……………………………………………………………… 148

7.5 本章小結 …………………………………………………………………… 153

參考文獻…………………………………………………………………………… 153

第8章 Selenium技術……………………………………………………………… 154

8.1 初識Selenium ……………………………………………………………… 154

8.1.1 安裝Selenium ………………………………………………………… 155

8.1.2 安裝瀏覽器驅動 ……………………………………………………… 156

8.1.3 PhantomJS …………………………………………………………… 158

8.2 快速開始Selenium解析…………………………………………………… 159

8.3 定位元素 …………………………………………………………………… 162

8.3.1 通過id屬性定位元素 ………………………………………………… 163

8.3.2 通過name屬性定位元素 …………………………………………… 165

8.3.3 通過XPath路徑定位元素 …………………………………………… 166

8.3.4 通過起鏈接文本定位元素 …………………………………………… 168

8.3.5 通過標簽名定位元素 ………………………………………………… 169

8.3.6 通過類屬性名定位元素 ……………………………………………… 170

8.3.7 通過CSS選擇器定位元素 …………………………………………… 170

8.4 常用方法和屬性 …………………………………………………………… 170

8.4.1 操作元素的方法 ……………………………………………………… 170

8.4.2 WebElement常用屬性 ……………………………………………… 174

8.5 鍵盤和鼠標自動化操作 …………………………………………………… 175

8.5.1 鍵盤操作 ……………………………………………………………… 175

8.5.2 鼠標操作 ……………………………………………………………… 177

8.6 導航控製 …………………………………………………………………… 178

8.6.1 下拉菜單交互操作 …………………………………………………… 178

8.6.2 Window和Frame間對話框的移動 ………………………………… 179

8.7 本章小結 …………………………………………………………………… 180

參考文獻…………………………………………………………………………… 180

第9章 Selenium爬取在綫百科知識……………………………………………… 181

9.1 三大在綫百科 ……………………………………………………………… 181

9.1.1 維基百科 ……………………………………………………………… 181

9.1.2 百度百科 ……………………………………………………………… 183

9.1.3 互動百科 ……………………………………………………………… 184

9.2 Selenium爬取維基百科 …………………………………………………… 185

9.2.1 網頁分析 ……………………………………………………………… 185

9.2.2 代碼實現 ……………………………………………………………… 190

9.3 Selenium爬取百度百科 …………………………………………………… 190

9.3.1 網頁分析 ……………………………………………………………… 190

9.3.2 代碼實現 ……………………………………………………………… 195

9.4 Selenium爬取互動百科 …………………………………………………… 198

9.4.1 網頁分析 ……………………………………………………………… 198

9.4.2 代碼實現 ……………………………………………………………… 200

9.5 本章小結 …………………………………………………………………… 202

參考文獻…………………………………………………………………………… 203

第10章 基於數據庫存儲的Selenium博客爬蟲 …………………………………… 204

10.1 博客網站…………………………………………………………………… 204

10.2 Selenium爬取博客信息 ………………………………………………… 206

10.2.1 Forbidden錯誤 ……………………………………………………… 206

10.2.2 分析博客網站翻頁方法……………………………………………… 208

10.2.3 DOM 樹節點分析及網頁爬取 ……………………………………… 210

10.3 MySQL數據庫存儲博客信息 …………………………………………… 212

10.3.1 Navicat for MySQL創建錶 ………………………………………… 213

10.3.2 Python操作 MySQL數據庫 ……………………………………… 214

10.3.3 代碼實現……………………………………………………………… 216

10.4 本章小結…………………………………………………………………… 222

第11章 基於登錄分析的Selenium微博爬蟲 ……………………………………… 223

11.1 登錄驗證…………………………………………………………………… 223

11.2 初識微博爬蟲……………………………………………………………… 226

11.2.1 微 博………………………………………………………………… 226

11.2.2 登錄入口……………………………………………………………… 227

11.2.3 微博自動登錄………………………………………………………… 229

11.3 爬取微博熱門信息………………………………………………………… 232

11.3.1 搜索所需的微博主題………………………………………………… 232

11.3.2 爬取微博內容………………………………………………………… 235

11.4 本章小結…………………………………………………………………… 242

參考文獻…………………………………………………………………………… 242

第12章 基於圖片抓取的Selenium爬蟲 ………………………………………… 243

12.1 圖片爬蟲框架……………………………………………………………… 243

12.2 圖片網站分析……………………………………………………………… 245

12.2.1 圖片爬取方法………………………………………………………… 245

12.2.2 全景網爬取分析……………………………………………………… 246

12.3 代碼實現…………………………………………………………………… 250

12.4 本章小結…………………………………………………………………… 254

第13章 Scrapy技術爬取網絡數據 ……………………………………………… 255

13.1 安裝Scrapy ……………………………………………………………… 255

13.2 快速瞭解Scrapy ………………………………………………………… 256

13.2.1 Scrapy基礎知識 …………………………………………………… 257

13.2.2 Scrapy組成詳解及簡單示例 ……………………………………… 259

13.3 Scrapy爬取貴州農産品數據集 ………………………………………… 270

13.4 本章小結…………………………………………………………………… 285

參考文獻…………………………………………………………………………… 285

套書後記……………………………………………………………………………… 286

緻 謝………………………………………………………………………………… 288

精彩書摘

推薦序 一

作為與秀璋同窗同寢的10年老友,此書可以說是他實踐的總結。秀璋是深受朋友信任的好兄弟,亦是深受學生愛戴的好老師,似乎有著用不完的熱情,這種熱情,帶給我們這個社會一絲絲的溫暖,在人與人之間傳遞著。當初在博客上不斷寫文章,並耐心解答網友們的各種問題,還幫助許多網友學習編程,指導他們的作業甚至畢業論文,所以,當教師這顆種子早已埋下。畢業後的秀璋,拿著同學們羨慕的北京IT行業某網絡公司的錄取通知書,卻毅然決然踏上返鄉的路,這一走,走進瞭大山裏的貴州,成瞭一名受人尊敬的人民教師。生活平淡而辛苦,而樂觀的秀璋卻收獲瞭愛情,此也命也。

拒絕瞭無數聚會的邀請,見證瞭無數貴陽淩晨的燈火,秀璋和顔娜孜孜不倦寫下這本書,作為朋友,著實替他們高興。作為見證這本書從下筆到問世的讀者,作為一個Python愛好者及有一定數據分析功底的學生,讀這本書真是如晤老友———有大量的網絡數據爬取實例,從Python 基礎知識到正則錶達式爬蟲,再到BeautifulSoup、Selenium、Scrapy爬取技術,並結閤數據存儲、海量圖集分析、自動登錄等實例進行講解。本書配以專業但不晦澀的語言,將原本枯燥的學術知識娓娓道來,此時的秀璋不是老師,而是一個熟悉的老友,用大傢聽得懂的話,解釋著您需要瞭解的一切。同時,當您學習完Python網絡數據爬取之後,還推薦您繼續學習本套書中的另一本書———《Python網絡數據爬取及分析從入門到精通(數據分析篇)》,進而更好地掌握與Python相關的知識。

總之,再多贊美的語言,都比不上滴滴汗水凝結的成功帶來的滿足與喜悅。願您

閤上書時,亦能感受到文中的真誠。

大疆公司 宋籍文

2017年11月1日於深圳

推薦序 二

當我被秀璋邀請為這套書寫序時,我首先感到的是驚訝和榮幸。秀璋是我最好的朋友之一,在本科和碩士學習期間,我們一起在北京理工大學度過瞭六年的美好時光。秀璋是一個真誠而嚴謹的人,在學習、工作,甚至遊戲中,他都力爭完美,很開心看到他完成瞭這本著作。

在大學期間,每個人都知道他當老師的夢想,之後他也確實迴到瞭傢鄉貴州,做著他喜歡的事情。我希望他能在教育領域保持著那份激情和初心,即使這是一個漫長而艱難的過程,但我相信他會用他的熱情和愛意剋服一切睏難,教書育人。這本書就像他的一個“孩子”,他花瞭很多時間和精力撰寫而成。它是一本關於Python技術的網絡爬蟲書籍,包括很多有用的實例,比如爬取在綫百科、爬取技術博客或新浪微博數據、挖掘招聘網站或豆瓣網電影信息等。現在我們都知道一些與計算機科學相關的熱門術語,如機器學習、大數據、人工智能等,而許多像SAP這樣的公司也在關注這些新興的技術,關注從海量信息中挖掘齣有價值的信息,以便將來為客戶提供更好的軟件解決方案和服務,為公司決策提供支撐。

但我們從哪裏開始學習這些新知識呢? 我想您可以從讀這本書開始。在本書中,秀璋介紹瞭一種可用於數據挖掘等應用的基本技能———網絡爬蟲技術。一個網絡爬蟲通常是從互聯網上提取有用的信息,它可以用來爬取結構化/非結構化文本、圖片或各類數據。藉助這些數據,我們可以構建自己的應用,例如Google知識圖譜、輿情分析係統、智能傢具應用等。本書既可以看作是Python數據爬取的入門教程,也可以當作指導手冊或科普書。對於初學者來說,學習本書中的內容並不難,它就是一步步的教程,包括基本的Python語法、BeautifulSoup技術、Selenium 技術、Scrapy框架等。書中有許多生動而有趣的案例,以及詳細的圖形指南和代碼注釋,絕不會讓您感到無聊。

本書是學習Python數據爬取的不二選擇。同時推薦您繼續學習本套書中的另一本書———《Python網絡數據爬取及分析從入門到精通(分析篇)》,進而更好地掌握與Python相關的知識。

如果您真的是Python、網絡爬蟲、數據分析或大數據的忠實粉絲,請不要猶豫,學習Python就從本書開始吧!

SAP工程師 數字商務服務 徐溥

2017年11月23日於美國


前言/序言

隨著數據分析和人工智能風暴的來臨,Python也變得越來越火熱。它就像一把利劍,使我們能隨心所欲地做著各種分析與研究。在研究機器學習、深度學習與人工智能之前,我們有必要靜下心來學習一下Python基礎知識、基於Python的網絡數據爬取及分析,這些知識點都將為我們後續的開發和研究打下紮實的基礎。同時,由於世麵上缺少以實例為驅動,全麵詳細介紹Python網絡爬蟲及數據分析的書,本套書很好地填補瞭這一空白,它通過Python語言來教讀者編寫網絡爬蟲並教大傢針對不同的數據集做算法分析。本套書既可以作為Python數據爬取及分析的入門教材,也可以作為實戰指南,包括多個經典案例。下麵作者將簡單介紹本套書。

它究竟是一套什麼樣的書呢? 對您學習網絡數據抓取及分析是否有幫助呢?

本套書是以實例為主、使用Python語言講解網絡數據爬蟲及分析的書和實戰指南。本套書結閤圖錶、代碼、示例,采用通俗易懂的語言介紹瞭Python基礎知識、數據爬取、數據分析、數據預處理、數據可視化、數據存儲、算法評估等多方麵知識,每一部分知識都從安裝過程、導入擴展包到算法原理、基礎語法,再結閤實例詳細講解。本套書適閤計算機科學、軟件工程、信息技術、統計數學、數據科學、數據挖掘、大數據等專業的學生學習,也適閤對網絡數據爬取、數據分析、文本挖掘、統計分析等領域感興趣的讀者閱讀,同時也作為數據挖掘、數據分析、數據爬取、機器學習、大數據等技術相關課程的教材或實驗指南。

本套書分為兩篇本:數據爬取篇和數據分析篇。其中,爬取篇詳細講解瞭正則錶達式、BeautifulSoup、Selenium、Scrapy、數據庫存儲相關的爬蟲知識,並通過實例讓讀者真正學會如何分析網站、爬取自己所需的數據;分析篇詳細講解瞭Python數據分析常用庫、可視化分析、迴歸分析、聚類分析、分類分析、關聯規則挖掘、文本預處理、詞雲分析及主題模型、復雜網絡和基於數據庫的分析。“數據爬取篇”突齣爬取,“數據分析篇”側重分析,為瞭更好地掌握相關知識,建議讀者將兩本書結閤起來學習。

為什麼本套書會選擇Python作為數據爬取和數據分析的編程語言呢?

隨著大數據、數據分析、深度學習、人工智能的迅速發展,網絡數據爬取和網絡數據分析也變得越來越熱門。由於Python具有語法清晰、代碼友好、易讀易學等特點,同時擁有強大的第三方庫支持,包括網絡爬取、信息傳輸、數據分析、繪圖可視化、機器學習等庫函數,所以本套書選擇Python作為數據爬取和數據分析的編程語言。

首先,Python既是一種解釋性編程語言,又是一種麵嚮對象的語言,其操作性和可移植性較高,因而被廣泛應用於數據挖掘、文本抓取、人工智能等領域。就作者看來,Python最大的優勢在於效率。有時程序員或科研工作者的工作效率比機器的效率更為重要,對於很多復雜的功能,使用較清晰的語言能給程序員減輕更多的負擔,從而大大提高代碼質量,提高工作效率。雖然Python底層運行速度要比C語言慢,但Python清晰的結構能節省程序員的時間,簡單易學的特點也降低瞭編程愛好者的門檻,所以說“人生苦短,我學Python”。

其次,Python可以應用在網絡爬蟲、數據分析、人工智能、機器學習、Web開發、金融預測、自動化測試等多個領域,並且都有非常優秀的錶現,從來沒有一種編程語言可以像Python這樣同時紮根在這麼多領域。另外,Python還支持跨平颱操作,支持開源,擁有豐富的第三方庫。尤其隨著人工智能的持續火熱,Python在IEEE 發布的2017年最熱門語言中排名第一,同時許多程序愛好者、科技工作者也都開始認識Python,使用Python。

接下來作者將Python和其他常用編程語言,突齣其優勢。相比於C#,Python是跨平颱的、支持開源的,是一種解釋型語言進行簡單對比,可以運行在Windows、Linux等平颱上;而C#則相反,其平颱受限,不支持開源,並且需要編譯。相比於Java,Python更簡潔,學習難度也相對低很多,而Java則過於龐大復雜。相比於C和C++,Python的語法簡單易懂,代碼清晰,是一種腳本語言,使用起來更為靈活;而C和C++通常要和底層硬件打交道,語法也比較晦澀難懂。

目前,Python 3.x版本已經發布並正在普及,本套書卻選擇瞭Python2.7版本,並貫穿整套書的所有代碼,這又是為什麼呢?

在Python發布的版本中,Python 2.7是比較經典的一個版本,其兼容性較高,各方麵的資料和文章也比較完善。該版本適用於多種信息抓取庫,如Selenium、BeautifulSoup等,也適用於各種數據分析庫,如Sklearn、Matplotlib等,所以本套書選擇Python 2.7版本;同時結閤官方的Python解釋器和Anaconda集成軟件進行詳細介紹,也希望讀者喜歡。Python 3.x版本已經發布,具有一些更便捷的地方,但大部分功能和語法都與Python 2.7是一緻的,作者推薦大傢結閤Python 3.x進行學習,並可以嘗試將本套書中的代碼修改為Python 3.x版本,加深印象。

同時,作者針對不同類型的讀者給齣一些關於如何閱讀和使用本套書的建議。

如果您是一名沒有任何編程基礎或數據分析經驗的讀者,建議您在閱讀本套書時,先瞭解對應章節的相關基礎知識,並手動敲寫每章節對應的代碼進行學習;雖然本套書是循序漸進深入講解的,但是為瞭您更好地學習數據抓取和數據分析知識,獨立編寫代碼是非常必要的。

如果您是一名具有良好的計算機基礎、Python開發經驗或數據挖掘、數據分析背景的讀者,則建議您獨立完成本套書中相應章節的實例,同時抓取自己感興趣的數據集並深入分析,從而提升您的編程和數據分析能力。

如果您是一名數據挖掘或自然語言處理相關行業的研究者,建議您從本套書找到自己感興趣的章節進行學習,同時也可以將本套書作為數據爬取或數據分析的小字典,希望給您帶來一些應用價值。

如果您是一名老師,則推薦您使用本套書作為網絡數據抓取或網絡數據分析相關課程的教材,您可以按照本套書中的內容進行授課,也可以將本套書中相關章節布置為學生的課後習題。個人建議老師在講解完基礎知識之後,把相應章節的任務和數據集描述布置給學生,讓他們實現對應的爬取或分析實驗。但切記,一定要讓學生自己獨立實現書中的代碼,以擴展他們的分析思維,從而培育更多數據抓取和數據分析領域的人纔。

如果您隻是一名對數據爬取或數據分析感興趣的讀者,則建議您簡單瞭解本書的結構、每章節的內容,掌握數據抓取和數據分析的基本流程,作為您普及Web數據挖掘和大數據分析的參考書。

無論如何,作者都希望本套書能給您普及一些網絡數據抓取相關的知識,更希望您能爬取自己所需的語料,結閤本套書中的案例分析自己研究的內容,給您的研究課題或論文提供一些微不足道的思路。如果本套書讓您學會瞭Python抓取網絡數據的方法,作者就更加欣慰瞭。

最後,完成本套書肯定少不瞭很多人的幫助和支持,在此送上我最誠摯的謝意。

本套書確實花費瞭作者很多心思,包括多年來從事Web數據挖掘、自然語言處理、網絡爬蟲等領域的研究,匯集瞭作者5年來博客知識的總結。本套書在編寫期間得到瞭許多Python數據爬取和數據分析愛好者,作者的老師、同學、同事、學生,以及互聯網一些“大牛”的幫助,包括張老師(北京理工大學)、籍文(大疆創新科技公司)、徐溥(SAP公司)、俊林(阿裏巴巴公司)、容神、峰子(華為公司)、田一(南京理工大學)、王金(重慶郵電大學)、羅煒(北京郵電大學)、鬍子(中央民族大學)、任行(中國傳媒大學)、青哥(老師)、蘭姐(電子科技大學)、小何幸(貴州財經大學)、小民(老師)、任瑤(老師)等,在此錶示最誠摯的謝意。同時感謝北京理工大學和貴州財經大學對作者多年的教育與培養,感謝CSDN 網站、博客園網站、阿裏雲棲社區等多年來對作者博客和專欄的支持。

由於本套書是結閤作者關於Python實際抓取網絡數據和分析數據的研究,以及多年撰寫博客經曆而編寫的,所以書中難免會有不足或講得不夠透徹的地方,敬請廣大讀者諒解。

最後,以作者離開北京選擇迴貴州財經大學信息學院任教的一首詩結尾吧!

貴州縱美路迢迢,未付勞心此一遭。

收得破書三四本,也堪將去教爾曹。

但行好事,莫問前程。

待隨滿天桃李,再追學友趣事。

作 者

2018年2月24日



用戶評價

評分

評分

評分

評分

評分

評分

評分

評分

評分

相關圖書

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有