第1章 開發環境配置 1
1.1 Python 3的安裝 1
1.1.1 Windows下的安裝 1
1.1.2 Linux下的安裝 6
1.1.3 Mac下的安裝 8
1.2 請求庫的安裝 10
1.2.1 requests的安裝 10
1.2.2 Selenium的安裝 11
1.2.3 ChromeDriver的安裝 12
1.2.4 GeckoDriver的安裝 15
1.2.5 PhantomJS的安裝 17
1.2.6 aiohttp的安裝 18
1.3 解析庫的安裝 19
1.3.1 lxml的安裝 19
1.3.2 Beautiful Soup的安裝 21
1.3.3 pyquery的安裝 22
1.3.4 tesserocr的安裝 22
1.4 數據庫的安裝 26
1.4.1 MySQL的安裝 27
1.4.2 MongoDB的安裝 29
1.4.3 Redis的安裝 36
1.5 存儲庫的安裝 39
1.5.1 PyMySQL的安裝 39
1.5.2 PyMongo的安裝 39
1.5.3 redis-py的安裝 40
1.5.4 RedisDump的安裝 40
1.6 Web庫的安裝 41
1.6.1 Flask的安裝 41
1.6.2 Tornado的安裝 42
1.7 App爬取相關庫的安裝 43
1.7.1 Charles的安裝 44
1.7.2 mitmproxy的安裝 50
1.7.3 Appium的安裝 55
1.8 爬蟲框架的安裝 59
1.8.1 pyspider的安裝 59
1.8.2 Scrapy的安裝 61
1.8.3 Scrapy-Splash的安裝 65
1.8.4 Scrapy-Redis的安裝 66
1.9 部署相關庫的安裝 67
1.9.1 Docker的安裝 67
1.9.2 Scrapyd的安裝 71
1.9.3 Scrapyd-Client的安裝 74
1.9.4 Scrapyd API的安裝 75
1.9.5 Scrapyrt的安裝 75
1.9.6 Gerapy的安裝 76
*2章 爬蟲基礎 77
2.1 HTTP基本原理 77
2.1.1 URI和URL 77
2.1.2 超文本 78
2.1.3 HTTP和HTTPS 78
2.1.4 HTTP請求過程 80
2.1.5 請求 82
2.1.6 響應 84
2.2 網頁基礎 87
2.2.1 網頁的組成 87
2.2.2 網頁的結構 88
2.2.3 節點樹及節點間的關係 90
2.2.4 選擇器 91
2.3 爬蟲的基本原理 93
2.3.1 爬蟲概述 93
2.3.2 能抓怎樣的數據 94
2.3.3 渲染頁麵 94
2.4 會話和Cookies 95
2.4.1 靜態網頁和動態網頁 95
2.4.2 無狀態HTTP 96
2.4.3 常見誤區 98
2.5 代理的基本原理 99
2.5.1 基本原理 99
2.5.2 代理的作用 99
2.5.3 爬蟲代理 100
2.5.4 代理分類 100
2.5.5 常見代理設置 101
第3章 基本庫的使用 102
3.1 使用urllib 102
3.1.1 發送請求 102
3.1.2 處理異常 112
3.1.3 解析鏈接 114
3.1.4 分析Robots協議 119
3.2 使用requests 122
3.2.1 基本用法 122
3.2.2 *級用法 130
3.3 正則錶達式 139
3.4 抓取貓眼電影排行 150
第4章 解析庫的使用 158
4.1 使用XPath 158
4.2 使用Beautiful Soup 168
4.3 使用pyquery 184
第5章 數據存儲 197
5.1 文件存儲 197
5.1.1 TXT文本存儲 197
5.1.2 JSON文件存儲 199
5.1.3 CSV文件存儲 203
5.2 關係型數據庫存儲 207
5.2.1 MySQL的存儲 207
5.3 非關係型數據庫存儲 213
5.3.1 MongoDB存儲 214
5.3.2 Redis存儲 221
第6章 Ajax數據爬取 232
6.1 什麼是Ajax 232
6.2 Ajax分析方法 234
6.3 Ajax結果提取 238
6.4 分析Ajax爬取現在頭條街拍美圖 242
第7章 動態渲染頁麵爬取 249
7.1 Selenium的使用 249
7.2 Splash的使用 262
7.3 Splash負載均衡配置 286
7.4 使用Selenium爬取淘寶商品 289
第8章 驗證碼的識彆 298
8.1 圖形驗證碼的識彆 298
8.2 極驗滑動驗證碼的識彆 301
8.3 點觸驗證碼的識彆 311
8.4 微博宮格驗證碼的識彆 318
第9章 代理的使用 326
9.1 代理的設置 326
9.2 代理池的維護 333
9.3 付費代理的使用 347
9.4 ADSL撥號代理 351
9.5 使用代理爬取微信公眾號文章 364
*10章 模擬登錄 379
10.1 模擬登錄並爬取GitHub 379
10.2 Cookies池的搭建 385
*11章 App的爬取 398
11.1 Charles的使用 398
11.2 mitmproxy的使用 405
11.3 mitmdump爬取“得到”App電子書
信息 417
11.4 Appium的基本使用 423
11.5 Appium爬取微信朋友圈 433
11.6 Appium+mitmdump爬取京東商品 437
*12章 pyspider框架的使用 443
12.1 pyspider框架介紹 443
12.2 pyspider的基本使用 445
12.3 pyspider用法詳解 459
*13章 Scrapy框架的使用 468
13.1 Scrapy框架介紹 468
13.2 Scrapy入門 470
13.3 Selector的用法 480
13.4 Spider的用法 486
13.5 Downloader Middleware的用法 487
13.6 Spider Middleware的用法 494
13.7 Item Pipeline的用法 496
13.8 Scrapy對接Selenium 506
13.9 Scrapy對接Splash 511
13.10 Scrapy通用爬蟲 516
13.11 Scrapyrt的使用 533
13.12 Scrapy對接Docker 536
13.13 Scrapy爬取新浪微博 541
*14章 分布式爬蟲 555
14.1 分布式爬蟲原理 555
14.2 Scrapy-Redis源碼解析 558
14.3 Scrapy分布式實現 564
14.4 Bloom Filter的對接 569
*15章 分布式爬蟲的部署 577
15.1 Scrapyd分布式部署 577
15.2 Scrapyd-Client的使用 582
15.3 Scrapyd對接Docker 583
15.4 Scrapyd批量部署 586
15.5 Gerapy分布式管理 590
本書介紹瞭如何利用Python 3開發網絡爬蟲,書中首先介紹瞭環境配置和基礎知識,然後討論瞭urllib、requests、正則錶達式、Beautiful Soup、XPath、pyquery、數據存儲、Ajax數據爬取等內容,接著通過多個案例介紹瞭不同場景下如何實現數據爬取,*後介紹瞭pyspider框架、Scrapy框架和分布式爬蟲。
本書適閤Python程序員閱讀。
崔慶纔,北京航空航天大學碩士,靜覓博客博主,爬蟲博文訪問量已過百萬,喜歡鑽研,熱愛生活,樂於分享。
我選擇這本書,很大程度上是因為“圖靈教育”這個品牌。我一直認為圖靈教育齣版的計算機類書籍在質量上是有保證的,它們通常內容嚴謹、技術前沿,而且翻譯和排版都做得相當不錯。這次的《預售 圖靈教育 Python 3網絡爬蟲開發實戰》也不例外,從書的整體感覺來看,它延續瞭圖靈一貫的專業風格。我特彆關注書中是否能夠涵蓋到當前網絡爬蟲開發領域最主流的技術和工具,比如 Scrapy 框架的最新版本特性,以及如何應對日益復雜的反爬技術。同時,我希望這本書能提供一些關於構建健壯、可擴展的爬蟲係統的設計思路和架構建議,這對於我將來從事更復雜的爬蟲項目非常有幫助。如果書中能提及一些異步 IO、多綫程/多進程爬蟲的實現方式,以及如何優化爬蟲的效率和穩定性,那就更符閤我的期待瞭。
評分坦白說,作為一個對 Python 爬蟲領域充滿熱情但又有些茫然的新手,我經常被市麵上各種資料淹沒,不知從何下手。這本書的齣現,讓我看到瞭希望。它明確地指齣瞭“Python 3”和“網絡爬蟲開發實戰”,這兩個關鍵詞對我來說就像是導航儀。我期望這本書能夠從最基礎的概念講起,循序漸進地引導我進入這個領域,而不是直接拋齣復雜的代碼和概念。例如,它應該解釋清楚什麼是 HTTP 請求、HTML 結構、CSS 選擇器等基礎知識,然後逐步過渡到 Scrapy 這樣的強大框架。我希望書中提供的代碼示例是簡潔、易懂且可以直接運行的,並且有詳細的注釋,讓我能夠理解每一行代碼的作用。如果還能包含一些常見的爬蟲項目實戰案例,比如爬取某個新聞網站的文章,或者某個電商網站的商品信息,並附帶講解開發過程中遇到的問題以及解決方案,那將大大提升我的學習效率和信心。
評分這本書的包裝和裝幀真的給我留下瞭深刻的印象,拿到手的那一刻就感覺物有所值。封麵設計非常簡潔大氣,采用瞭我喜歡的深藍色調,搭配上銀色的文字,顯得既專業又很有質感。紙張的選擇也很考究,不是那種特彆薄容易透印的紙,摸上去有點滑膩感,翻閱的時候也沒有刺鼻的氣味,這一點對於長期閱讀書籍的讀者來說,無疑是一個加分項。印刷也相當清晰,字體大小適中,排版緊湊但又不顯得擁擠,即使是晚上在燈光下閱讀,眼睛也不會感到疲勞。書脊部分的處理也很牢固,不會齣現翻幾頁就散架的情況,感覺可以放心地經常翻閱和查找資料。整體來說,這本書的物理呈現給我一種非常好的閱讀期待,讓人迫不及待地想要翻開它,探索裏麵的內容。我通常比較注重書籍的整體品質,因為它能直接影響到閱讀的體驗和學習的動力,從這個角度來看,這本書已經給瞭我一個非常積極的開端。
評分我之前也接觸過一些關於網絡爬蟲的書籍,但很多都偏嚮於理論講解,對於實際操作的指導相對較少。這本書從書名就能感受到它更側重於“實戰”和“開發”,這正是我所需要的。我希望它能提供清晰的步驟、具體的代碼示例,以及解決實際開發中可能遇到的各種問題的方案。我特彆期待書中能詳細講解如何應對網站的反爬蟲策略,比如驗證碼、IP封禁、JavaScript渲染等,這些都是在爬蟲開發過程中非常棘手的難題。同時,書中提到的“數據分析處理”部分也讓我充滿好奇,這意味著它不僅僅是教你如何抓取數據,還會引導你如何清洗、整理、分析這些數據,甚至進行一些基礎的可視化,將原始數據轉化為有價值的信息。我希望這本書能幫助我建立起一套完整的爬蟲開發和數據處理流程,讓我能夠獨立完成一些小型的數據采集和分析項目。
評分收到這本《預售 圖靈教育 Python 3網絡爬蟲開發實戰》後,最吸引我的莫過於它“Scrapy數據分析處理手冊”的副標題。我深知,僅僅抓取到海量的數據往往是不夠的,如何有效地處理和分析這些數據,從中挖掘齣有價值的洞察,纔是衡量一個爬蟲開發者能力的重要標準。我期待書中能深入探討 Scrapy 框架在數據清洗、去重、格式轉換、存儲等方麵的最佳實踐。更重要的是,我希望能看到一些關於如何利用 Python 的數據科學庫(如 Pandas, NumPy)與爬蟲技術相結閤的案例。例如,如何將爬取到的商品信息進行價格趨勢分析,或者將用戶評論數據進行情感分析,這些都是我非常感興趣的應用方嚮。如果書中能提供一些實用的數據可視化圖錶製作示例,那就更完美瞭,這能幫助我更直觀地展示數據分析結果。
評分書的內容其實並不適閤一般人的閱讀,比較枯燥乏味!
評分不錯,買的簽名版
評分內容涵蓋廣,很適閤入門,案例也不錯
評分二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字
評分非常好
評分內容涵蓋廣,很適閤入門,案例也不錯
評分此用戶未填寫評價內容
評分此用戶未填寫評價內容
評分二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字二十字
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有