 
			 
				書 名Python 3網絡爬蟲開發實戰
係列書名圖靈原創
執行編輯關於本書的內容有任何問題,請聯係 王軍花
書 號978-7-115-48034-7
定 價99.00 元
頁 數608
印刷方式單色
開 本16開
齣版狀態正在排版
本書介紹瞭如何利用Python 3開發網絡爬蟲,書中首先介紹瞭環境配置和基礎知識,然後討論瞭urllib、requests、正則錶達式、Beautiful Soup、XPath、pyquery、數據存儲、Ajax數據爬取等內容,接著通過多個案例介紹瞭不同場景下如何實現數據爬取,最後介紹瞭pyspider框架、Scrapy框架和分布式爬蟲。
本書適閤Python程序員閱讀。
本書特色
1.本書詳細介紹瞭爬蟲的關鍵技術,涵蓋麵廣,實用性強。
2.本書作者崔慶纔,北京航空航天大學碩士,北京釘趣網絡公司技術總監,其個人博客為cuiqingcai.com,其上爬蟲文章的瀏覽量總計已過百萬。
目錄
正在加工……
作者介紹
崔慶纔,北京航空航天大學碩士,靜覓博客(https://cuiqingcai.com/)博主,爬蟲博文訪問量已過百萬,喜歡鑽研,熱愛生活,樂於分享。
基本信息
定價:¥49.00
作者:唐鬆 陳智銓
I S B N :978-7-111-57841-3條碼書號:9787111578413上架日期:2017/9/5齣版日期:2017/9/5版 次:1-1齣 版 社:機械工業齣版社叢 書 名: 頁 數:244
內容簡介
本書將介紹如何使用Python編寫網絡爬蟲程序獲取互聯網上的大數據。本書包括三部分內容:基礎部分、進階部分和項目實踐。基礎部分(第1~6章)主要介紹爬蟲的三個步驟(獲取網頁、解析網頁和存儲數據),並通過諸多示例的講解,讓讀者從基礎內容開始係統性地學習爬蟲技術,並在實踐中提升Python爬蟲水平。進階部分(第7~12章)包括多綫程的並發和並行爬蟲、分布式爬蟲、更換IP等,幫助讀者進一步提升爬蟲水平。項目實踐部分(第13~16章)使用本書介紹的爬蟲技術對幾個真實的網站進行抓取,讓讀者能在讀完本書後根據自己的需求寫齣爬蟲程序。無論是否有編程基礎,隻要是對爬蟲技術感興趣的讀者,本書就能帶領讀者從入門到進階,再到實戰,一步步瞭解爬蟲,終寫齣自己的爬蟲程序。
第1章網絡爬蟲入門
1.1為什麼要學網絡爬蟲
1.1.1 網絡爬蟲能帶來什麼好處
1.1.2能從網絡上爬取什麼數據
1.1.3應不應該學爬蟲
1.2網絡爬蟲是否閤法
1.2.1 Robots協議
1.2.2 網絡爬蟲的約束
1.3網絡爬蟲的基本議題
1.3.1 Python爬蟲的流程
1.3.2三個流程的技術實現
2章編寫一個網絡爬蟲
2.1搭建Python平颱
2.1.1 Python的安裝
2.1.2使用pip安裝第三方庫
2.1.3使用編譯器Jupyter編程
2.2 Python使用入門
2.2.1基本命令
2.2.2數據類型
2.2.3條件語句和循環語句
2.2.4函數
2.2.5麵嚮對象編程
2.3編寫一個簡單的爬蟲
第3章靜態網頁抓取
第4章動態網頁抓取
第5章解析網頁
第6章數據存儲
第7章提升爬蟲的速度
第8章反爬蟲問題
第9章解決中文亂碼
第10章登錄與驗證碼處理
第11章服務器采集
第12章分布式爬蟲
第13章爬蟲實踐一:維基百科
第14章爬蟲實踐二:知乎Live
第15章爬蟲實踐三:百度地圖API
第16章爬蟲實踐四:餐廳點評
..
Python 3爬蟲、數據清洗與可視化實戰
作 譯 者:零一,韓要賓,黃園園
齣版時間:2018-03 韆 字 數:200
版 次:01-01 頁 數:212
開 本:16開
裝 幀:
I S B N :9787121333590
換 版:
所屬分類:科技 >> 計算機 >> 計算機科學
紙質書定價:¥49.0
1 章 Python 基礎 ..................................................................................... 1
1.1 安裝Python 環境.............................................................................................................. 1
1.1.1 Python 3.6.2 安裝與配置 .......................................................................................... 1
1.1.2 使用IDE 工具——PyCharm .................................................................................... 4
1.1.3 使用IDE 工具——Anaconda ................................................................................... 4
1.2 Python 操作入門 .............................................................................................................. 6
1.2.1 編寫一個Python 代碼 .......................................................................................... 6
1.2.2 Python 基本操作 ....................................................................................................... 9
1.2.3 變量 .......................................................................................................................... 10
1.3 Python 數據類型 ............................................................................................................ 10
1.3.1 數字 .......................................................................................................................... 10
1.3.2 字符串 .......................................................................................................................11
1.3.3 列錶 .......................................................................................................................... 13
1.3.4 元組 .......................................................................................................................... 14
1.3.5 集閤 .......................................................................................................................... 15
1.3.6 字典 .......................................................................................................................... 15
1.4 Python 語句與函數 ......................................................................................................... 16
1.4.1 條件語句 .................................................................................................................. 16
1.4.2 循環語句 .................................................................................................................. 16
1.4.3 函數 .......................................................................................................................... 17
2 章 寫一個簡單的爬蟲 .......................................................................... 18
2.1 關於爬蟲的閤法性 ......................................................................................................... 18
2.2 瞭解網頁 ......................................................................................................................... 20
2.2.1 認識網頁結構 .......................................................................................................... 21
2.2.2 寫一個簡單的HTML ............................................................................................. 21
2.3 使用requests 庫請求網站 .............................................................................................. 23
Python 3 爬蟲、數據清洗與可視化實戰
2.3.1 安裝requests 庫 ....................................................................................................... 23
2.3.2 爬蟲的基本原理 ...................................................................................................... 25
2.3.3 使用GET 方式抓取數據 ........................................................................................ 26
2.3.4 使用POST 方式抓取數據 ...................................................................................... 27
2.4 使用Beautiful Soup 解析網頁 ....................................................................................... 30
2.5 清洗和組織數據 ............................................................................................................. 34
2.6 爬蟲攻防戰 ..................................................................................................................... 35
3 章 用API 爬取天氣預報數據 ............................................................... 38
3.1 注冊免費API 和閱讀技術文檔 ..................................................................................... 38
3.2 獲取API 數據 ................................................................................................................ 40
3.3 存儲數據到MongoDB ................................................................................................... 45
3.3.1 下載並安裝MongoDB ............................................................................................ 45
3.3.2 在PyCharm 中安裝Mongo Plugin ......................................................................... 46
3.3.3 將數據存入MongoDB ............................................................................................ 49
3.4 MongoDB 數據庫查詢 ................................................................................................... 52
4 章 大型爬蟲案例:抓取某電商網站的商品數據 ................................... 55
4.1 觀察頁麵特徵和解析數據 ............................................................................................. 55
4.2 工作流程分析 ................................................................................................................. 64
4.3 構建類目樹 ..................................................................................................................... 65
4.4 獲取産品列錶 ................................................................................................................. 68
4.5 代碼優化 ......................................................................................................................... 70
4.6 爬蟲效率優化 ................................................................................................................. 74
4.7 容錯處理 ......................................................................................................................... 77
5 章 Scrapy 爬蟲 ................................................................................... 78
5.1 Scrapy 簡介 ..................................................................................................................... 78
5.2 Scrapy 安裝 ..................................................................................................................... 79
5.3 案例:用Scrapy 抓取股票行情 .................................................................................... 80
6 章 Selenium爬蟲 ................................................................................ 88
6.1 Selenium 簡介 ................................................................................................................. 88
6.2 案例:用Selenium 抓取電商網站數據 ........................................................................ 90
7 章 數據庫連接和查詢 ........................................................................ 100
7.1 使用PyMySQL ............................................................................................................ 100
7.1.1 連接數據庫 ............................................................................................................ 100
7.1.2 案例:某電商網站女裝行業TOP100 銷量數據 ................................................. 102
7.2 使用SQLAlchemy ........................................................................................................ 104
7.2.1 SQLAlchemy 基本介紹 ......................................................................................... 104
7.2.2 SQLAlchemy 基本語法 ......................................................................................... 105
7.3 MongoDB ...................................................................................................................... 107
7.3.1 MongoDB 基本語法 .............................................................................................. 107
7.3.2 案例:在某電商網站搜索“連衣裙”的商品數據 ............................................ 107
8 章 NumPy ......................................................................................... 109
8.1 NumPy 簡介 .................................................................................................................. 109
8.2 一維數組 ........................................................................................................................110
8.2.1 數組與列錶的異同 .................................................................................................110
8.2.2 數組的創建 ............................................................................................................. 111
8.3 多維數組 ........................................................................................................................ 111
8.3.1 多維數組的高效性能 .............................................................................................112
8.3.2 多維數組的索引與切片 .........................................................................................113
8.3.3 多維數組的屬性 .....................................................................................................113
8.4 數組的運算 ....................................................................................................................115
9 章 pandas 數據清洗 .......................................................................... 117
9.1 數據讀寫、選擇、整理和描述 ....................................................................................117
9.1.1 從CSV 中讀取數據 ...............................................................................................119
9.1.2 嚮CSV 寫入數據 .................................................................................................. 120
9.1.3 數據選擇 ................................................................................................................ 120
9.1.4 數據整理 ................................................................................................................ 122
9.1.5 數據描述 ................................................................................................................ 123
9.2 數據分組、分割、閤並和變形 ................................................................................... 124
9.2.1 數據分組 ................................................................................................................ 124
9.2.2 數據分割 ................................................................................................................ 127
9.2.3 數據閤並 ................................................................................................................ 128
9.2.4 數據變形 ................................................................................................................ 134
9.2.5 案例:旅遊數據的分析與變形 ............................................................................ 136
Python 3 爬蟲、數據清洗與可視化實戰
9.3 缺失值、異常值和重復值處理 ................................................................................... 140
9.3.1 缺失值處理 ............................................................................................................ 140
9.3.2 檢測和過濾異常值 ................................................................................................ 144
9.3.3 移除重復數據 ........................................................................................................ 147
9.3.4 案例:旅遊數據的值檢查與處理 ........................................................................ 149
9.4 時序數據處理 ............................................................................................................... 152
9.4.1 日期/時間數據轉換 ............................................................................................... 152
9.4.2 時序數據基礎操作 ................................................................................................ 153
9.4.3 案例:天氣數據分析與處理 ................................................................................ 155
9.5 數據類型轉換 ............................................................................................................... 158
9.6 正則錶達式 ................................................................................................................... 160
9.6.1 元字符與限定符 .................................................................................................... 161
9.6.2 案例:用正則錶達式提取網頁文本信息 ............................................................ 162
10 章 綜閤應用實例 ............................................................................. 164
10.1 按給用戶推薦旅遊産品 ................................................................................. 164
10.1.1 數據采集 .............................................................................................................. 165
10.1.2 數據清洗、建模 .................................................................................................. 169
10.2 通過熱力圖分析為用戶提供齣行建議 ..................................................................... 172
10.2.1 某旅遊網站熱門景點爬蟲代碼(qunaer_sights.py) ....................................... 175
10.2.2 提取CSV 文件中經緯度和銷量信息 ................................................................ 178
10.2.3 創建景點門票銷量熱力地圖HTML 文件 ......................................................... 179
11 章 數據可視化 ................................................................................. 182
11.1 matplotlib .................................................................................................................... 183
11.1.1 畫齣各省份平均價格、各省份平均成交量柱狀圖 .......................................... 183
11.1.2 畫齣各省份平均成交量摺綫圖、柱狀圖、箱形圖和餅圖 .............................. 184
11.1.3 畫齣價格與成交量的散點圖 .............................................................................. 185
11.2 pyecharts ...................................................................................................................... 186
11.2.1 Echarts 簡介 ......................................................................................................... 186
11.2.2 pyecharts 簡介 ..................................................................................................... 187
11.2.3 初識pyecharts,玫瑰相送 .................................................................................. 187
11.2.4 pyecharts 基本語法 .............................................................................................. 188
11.2.5 基於商業分析的pyecharts 圖錶繪製 ................................................................. 190
11.2.6 使用pyecharts 繪製其他圖錶 ............................................................................. 199
11.2.7 pyecharts 和Jupyter ............................................................................................. 203
這本書絕對是 Python 網絡爬蟲領域的“寶藏”!我之前一直對爬蟲技術很好奇,但又覺得門檻很高,不知道從何下手。機緣巧閤下,我入手瞭這套書,簡直是打開瞭新世界的大門。第一捲,也就是《Python 3網絡爬蟲開發實戰》,就像一位耐心細緻的老師,從最基礎的環境搭建、HTTP協議的原理講起,到Requests庫的運用,再到BeautifulSoup和XPath的選擇器,每一個概念都解釋得非常透徹,而且代碼示例也很清晰,跟著敲一遍就能理解。讓我印象深刻的是,書中並沒有止步於簡單的抓取,而是深入講解瞭如何處理動態加載的網頁,比如使用Selenium進行瀏覽器自動化操作,這對於應對現代網站的復雜性至關重要。更棒的是,它還涉及瞭分布式爬蟲的概念,雖然隻是初步介紹,但已經讓我看到瞭擴展爬蟲能力的巨大潛力。雖然這本書的內容豐富,但我感覺它在某些進階主題上,比如反爬機製的深度破解和大規模數據存儲的優化方麵,還可以有更詳盡的探討。
評分《Python網絡爬蟲從入門到實踐教程書》這本書給瞭我一種“循序漸進,厚積薄發”的學習體驗。它不像有些教程那樣上來就講高深的理論,而是以項目驅動的方式,帶領讀者一步步完成實際的爬蟲項目。從最簡單的靜態網頁信息提取,到稍微復雜一點的登錄、驗證碼識彆,再到Ajax數據的抓取,每一個小項目都設置得非常閤理,讓我在實踐中鞏固知識。我覺得它最齣彩的地方在於,將理論知識巧妙地融入到項目實踐中,比如在某個項目中講解到瞭正則錶達式的運用,在另一個項目中又講解瞭如何利用Scrapy框架進行高效爬取。這種“學以緻用”的學習方式,讓我覺得學習過程既有趣又高效。當然,這本書的側重點可能更偏嚮於入門和實踐,對於一些深度優化的技術,比如多綫程/多進程爬蟲的實現細節,或者更復雜的反爬策略,可能需要參考其他更專業的書籍。
評分作為一個對數據分析和可視化有著濃厚興趣的讀者,我發現這套書中的《爬蟲 數據清洗與可視化實戰》提供瞭非常全麵的視角。它不僅僅是簡單地介紹 Pandas 的API,而是真正地展示瞭數據清洗在實際工作中的重要性,以及如何通過可視化來探索和理解數據。我尤其喜歡書中關於數據探索性分析(EDA)的部分,它展示瞭如何通過各種圖錶來發現數據中的模式、趨勢和相關性,為後續的建模或決策提供依據。例如,書中通過對某個數據集進行繪製,直觀地展示瞭不同類彆之間的差異,以及某個變量隨時間的變化趨勢,這些信息是我在原始數據中很難直接獲取的。雖然書中提供瞭豐富的可視化示例,但對於一些更高級的可視化技巧,例如交互式可視化(如 Plotly、Bokeh)以及一些專業領域的定製化圖錶,如果能有所涉及,將會更加完善。
評分我一直認為,學習一門技術最好的方式就是通過實際的項目來驅動。這套書的《Python網絡爬蟲從入門到實踐教程書》恰恰抓住瞭這一點。它為我提供瞭一個清晰的學習路徑,從最基本的爬蟲概念到Scrapy框架的應用,每一步都伴隨著實際的代碼示例和項目練習。我特彆欣賞書中對於Scrapy框架的講解,它詳細介紹瞭Scrapy的架構、Item、Spider、Pipeline等核心組件,並提供瞭一個完整的Scrapy項目案例,讓我能夠快速上手並理解其工作流程。通過完成書中的項目,我不僅掌握瞭爬蟲的基本原理和常用庫,還學會瞭如何組織和管理一個爬蟲項目,這對於我未來的學習和工作都非常有幫助。不過,如果這本書能夠增加一些關於爬蟲倫理和法律法規的討論,以及在大型項目管理方麵的一些指導,將會使它更加全麵。
評分這套書中的《爬蟲 數據清洗與可視化實戰》簡直是我處理爬取數據的“救星”。我之前爬取瞭一些數據,但麵對一堆雜亂無章的文本和數字,完全不知道如何下手進行分析。這本書提供瞭非常係統的解決方案。它從 Pandas 庫的基礎操作講起,比如DataFrame的創建、索引、選擇、切片,然後逐步深入到數據清洗的各個環節:缺失值處理(填補、刪除)、異常值檢測與處理、重復數據去除、數據類型轉換等等。書中提供瞭大量的實際案例,例如對電商評論、招聘信息、新聞資訊等不同類型數據的清洗過程,讓我能夠看到不同場景下數據問題的應對方法。最讓我興奮的是,它還詳細介紹瞭 Matplotlib 和 Seaborn 等可視化庫的運用,如何根據數據的特點繪製齣各種統計圖錶,比如散點圖、摺綫圖、柱狀圖、熱力圖等,讓數據分析的結果一目瞭然。雖然數據清洗的步驟和方法多種多樣,這本書已經涵蓋瞭絕大多數常用技巧,但如果能增加更多關於機器學習模型在數據清洗和特徵工程中的應用,或許能讓這本書的價值更上一層樓。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有