作為一種便捷地收集網上信息並從中抽取齣可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取復雜的網站。
《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑齣指南,講解瞭從靜態頁麵爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交錶單從受驗證碼保護的復雜網站中抽取數據等。本書使用Scrapy創建瞭一個高級網絡爬蟲,並對一些真實的網站進行瞭爬取。
《用Python寫網絡爬蟲》介紹瞭如下內容:
通過跟蹤鏈接來爬取網站;
使用lxml從頁麵中抽取數據;
構建綫程爬蟲來並行爬取頁麵;
將下載的內容進行緩存,以降低帶寬消耗;
解析依賴於JavaScript的網站;
與錶單和會話進行交互;
解決受保護頁麵的驗證碼問題;
對AJAX調用進行逆嚮工程;
使用Scrapy創建高級爬蟲。
本書讀者對象
本書是為想要構建可靠的數據爬取解決方案的開發人員寫作的,本書假定讀者具有一定的Python編程經驗。當然,具備其他編程語言開發經驗的讀者也可以閱讀本書,並理解書中涉及的概念和原理。
##最近又重新瀏覽瞭一遍,裏麵還是有些乾貨的,雖然基於Python2版本。
評分##入門第一選擇
評分##故意占篇幅
評分##還可以,講得比較基礎
評分##入門第一選擇
評分##還可以,講得比較基礎
評分##思路還行。
評分##2.7
評分##15年齣的書,16年翻譯齣版,17年就已經看不瞭瞭。代碼都是python2.7版的,有點老。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2026 book.tinynews.org All Rights Reserved. 静思书屋 版权所有