産品特色
內容簡介
本書將介紹如何使用Python編寫網絡爬蟲程序獲取互聯網上的大數據。本書包括三部分內容:基礎部分、進階部分和項目實踐。基礎部分(第1~6章)主要介紹爬蟲的三個步驟(獲取網頁、解析網頁和存儲數據),並通過諸多示例的講解,讓讀者從基礎內容開始係統性地學習爬蟲技術,並在實踐中提升Python爬蟲水平。進階部分(第7~12章)包括多綫程的並發和並行爬蟲、分布式爬蟲、更換IP等,幫助讀者進一步提升爬蟲水平。項目實踐部分(第13~16章)使用本書介紹的爬蟲技術對幾個真實的網站進行抓取,讓讀者能在讀完本書後根據自己的需求寫齣爬蟲程序。無論是否有編程基礎,隻要是對爬蟲技術感興趣的讀者,本書就能帶領讀者從入門到進階,再到實戰,一步步瞭解爬蟲,終寫齣自己的爬蟲程序。
目錄
推薦序
推薦序二
前言
前言二
第1章網絡爬蟲入門
1.1為什麼要學網絡爬蟲
1.1.1 網絡爬蟲能帶來什麼好處
1.1.2能從網絡上爬取什麼數據
1.1.3應不應該學爬蟲
1.2網絡爬蟲是否閤法
1.2.1 Robots協議
1.2.2 網絡爬蟲的約束
1.3網絡爬蟲的基本議題
1.3.1 Python爬蟲的流程
1.3.2三個流程的技術實現
2章編寫一個網絡爬蟲
2.1搭建Python平颱
2.1.1 Python的安裝
2.1.2使用pip安裝第三方庫
2.1.3使用編譯器Jupyter編程
2.2 Python使用入門
2.2.1基本命令
2.2.2數據類型
2.2.3條件語句和循環語句
2.2.4函數
2.2.5麵嚮對象編程
2.3編寫一個簡單的爬蟲
第3章靜態網頁抓取
第4章動態網頁抓取
第5章解析網頁
第6章數據存儲
第7章提升爬蟲的速度
第8章反爬蟲問題
第9章解決中文亂碼
第10章登錄與驗證碼處理
第11章服務器采集
第12章分布式爬蟲
第13章爬蟲實踐一:維基百科
第14章爬蟲實踐二:知乎Live
第15章爬蟲實踐三:百度地圖API
第16章爬蟲實踐四:餐廳點評
前言/序言
爬蟲程序是DT(Data Technology,數據技術)收集信息的基礎,程序員爬取目標網站的資料後,就可以分析和建立應用瞭。我們關心的是科技如何給人傢';#:
來實效,進而實現目標和理想,不能應用的技術稱為魔術,JI能用J:錶演。我們十分關注讀者能否把握爬蟲概念,所以相關的技術結閤不同的實例講解,希望能指導讀者完成整個數據采集的流程。
Python是一個簡單、有效的語言,爬蟲所需的獲取、存儲、整理等流程都可以使用Python係統地實現。此外,絕大部分計算機也町以直接使用Python語言或簡單地安裝Python係統,相信讀者一定能輕鬆地把Python作為爬蟲的主要技術。
動心者,當具有大本大源DT的核心是從信息的源頭去理解和分析,以做齣能打動對方的行動決策力+案。由榖歌搜索到現在的大數據時代,爬蟲技術的鶯要性和廣泛性‘直很突齣。
程序員理解瞭信息的獲取、存儲和整理各方麵的基本關係,纔有可能係統地收集和應用不同源頭和韆變萬化的網站信息。
剡居共享程序員要建立共利的互聯網環境,不能把爬蟲作為竊取數據的J_|.具,爬蟲必須在閤情、閤法、閤理的情況下獲取和應用。尊重數據供應者的知識産:權利正常運作纔能産生長久共利的環境。保障對方平颱的正常運作是每個程序員都應當做到的,因此我們把爬蟲的製約放在本書的第1章討論。
自強不息
互聯網科技不斷更新和進步,網站信息也隨之不斷改變。爬蟲的樂趣在於如何一直高效率、持續不斷地從日新月異的網站中獲取信息。另外,程序員要不斷學習新技術,自我提高,這樣在爬蟲的過程中纔能夠理解互聯網的運作和結構。後,感謝好友唐鬆給予我一起創作這本書的機會,讓我可以分享爬蟲技術和當中的樂趣。 陳智銓 思路富邦智能應用有限公司行政總裁!
近年來,大數據成為業界與學術界火熱的話題之一,數據已經成為每個公司極為重要的資産。互聯網大量的公開數據為個人和公司提供瞭以往想象不到的可以獲取的數據量。而掌握網絡爬蟲技術可以幫助你獲取這些有用的公開數據集。
執筆本書的起因是我打算在知乎上寫博客嚮香港中文大學市場營銷學的研究生講解Python網絡爬蟲技術,讓這些商科學生掌握一些大數據時代重要的技術能力。因此,本書除瞭麵嚮技術人員外,還麵嚮不懂編程的小白。本書盡量做到淺顯易懂,希望能夠將網絡爬蟲學習的門檻降低,讓大傢都能享受到使用網絡爬蟲編程的樂趣。
我是從商科自學轉到數據科學的,因此編程和數據挖掘能力都是上網自學的。在這個過程中,我深刻地體會到,與不知所雲的教學相比,深入淺齣的教學對學習效率有很大提升。因此,學習知識重要的兩點是,通過富有邏輯的框架解構學習和通過實戰解決實際問題,從而增強學習效果。本書的內容側重於將網絡爬蟲技術進行框架性的解構,並使用代碼將爬蟲技術應用於抓取真實的網站。
本書所有代碼均在Python 3.6中測試通過,可以從Github下載這些代碼,地址為https://github.com/Santostang/PythonScraping;也可以從百度網盤下載,地址為http://pan.baidu.com/s/lc2w9rck(注意區分數字和字母大小寫)。為瞭方便大傢練習Python網絡爬蟲,我專門搭建瞭一個博客網站用於Python網絡爬蟲的教學,本書教學部分的爬蟲全部基於爬取我的個人博客網站( www.santostang.com)。一方麵,由於這個網站不會更改設計和框架,因此本書的網絡爬蟲代碼可以一直使用;另一方麵,由於這是我自己的博客網站,因此可以避免一些法律上的風險。
本書主要分為三部分:基礎部分(第1~6章)、進階部分(第7~12章)和項目實踐部分(第13~16章),以此來針對不同類型的讀者。如果你是Python爬蟲的初學者,那麼可以先學習基礎部分,這部分每一章的後都有自我實踐題,讀者可以通過實踐題熟悉編寫Python爬蟲代碼。如果你已經對Python爬蟲有所瞭解,但是在實踐中遇到瞭各種問題,那麼可以直接學習進階部分,這部分為你在爬蟲實踐中遇到的問題提供瞭解決方案。本書後的項目實踐部分是讓你在學習Python爬蟲後,可以通過在真實網站中練習來消化和吸收Python爬蟲的知識。
後,感謝卞誠君老師在我寫書過程中給予的指導!感謝我的父母在撰寫此書的過程中給予的支持和鼓勵!還要感謝李宜威、周啓航、吳嘉傑等各位朋友以及劉建南教授等各位前輩在我的數據科學之路上一直給予的支持和無私幫助!
唐鬆2017年6月
Python網絡爬蟲從入門到實踐 計算機與互聯網 編程語言與程序設計 零基礎自學Python編程 epub pdf mobi txt 電子書 下載 2024
Python網絡爬蟲從入門到實踐 計算機與互聯網 編程語言與程序設計 零基礎自學Python編程 下載 epub mobi pdf txt 電子書
Python網絡爬蟲從入門到實踐 計算機與互聯網 編程語言與程序設計 零基礎自學Python編程 mobi pdf epub txt 電子書 下載 2024
Python網絡爬蟲從入門到實踐 計算機與互聯網 編程語言與程序設計 零基礎自學Python編程 epub pdf mobi txt 電子書 下載 2024