作 譯 者:零一,韓要賓,黃園園
齣版時間:2018-03 韆 字 數:200
版 次:01-01 頁 數:212
開 本:16開
裝 幀:
I S B N :9787121333590
換 版:
所屬分類:科技 >> 計算機 >> 計算機科學
紙質書定價:¥49.0
本書內容來自筆者在浙江某高校授課內容,主要介紹運用Python工具獲取電商平颱的頁麵數據,並對數據做清洗和存儲。本書簡化瞭Python基礎部分,保證有足夠的篇幅來介紹爬蟲和數據清洗的內容,對於Python基礎,建議新手可以選購對應的基礎書籍配閤本書一起學習。
第1 章 Python 基礎 ..................................................................................... 1
1.1 安裝Python 環境.............................................................................................................. 1
1.1.1 Python 3.6.2 安裝與配置 .......................................................................................... 1
1.1.2 使用IDE 工具——PyCharm .................................................................................... 4
1.1.3 使用IDE 工具——Anaconda ................................................................................... 4
1.2 Python 操作入門 .............................................................................................................. 6
1.2.1 編寫第一個Python 代碼 .......................................................................................... 6
1.2.2 Python 基本操作 ....................................................................................................... 9
1.2.3 變量 .......................................................................................................................... 10
1.3 Python 數據類型 ............................................................................................................ 10
1.3.1 數字 .......................................................................................................................... 10
1.3.2 字符串 .......................................................................................................................11
1.3.3 列錶 .......................................................................................................................... 13
1.3.4 元組 .......................................................................................................................... 14
1.3.5 集閤 .......................................................................................................................... 15
1.3.6 字典 .......................................................................................................................... 15
1.4 Python 語句與函數 ......................................................................................................... 16
1.4.1 條件語句 .................................................................................................................. 16
1.4.2 循環語句 .................................................................................................................. 16
1.4.3 函數 .......................................................................................................................... 17
第2 章 寫一個簡單的爬蟲 .......................................................................... 18
2.1 關於爬蟲的閤法性 ......................................................................................................... 18
2.2 瞭解網頁 ......................................................................................................................... 20
2.2.1 認識網頁結構 .......................................................................................................... 21
2.2.2 寫一個簡單的HTML ............................................................................................. 21
2.3 使用requests 庫請求網站 .............................................................................................. 23
Python 3 爬蟲、數據清洗與可視化實戰
2.3.1 安裝requests 庫 ....................................................................................................... 23
2.3.2 爬蟲的基本原理 ...................................................................................................... 25
2.3.3 使用GET 方式抓取數據 ........................................................................................ 26
2.3.4 使用POST 方式抓取數據 ...................................................................................... 27
2.4 使用Beautiful Soup 解析網頁 ....................................................................................... 30
2.5 清洗和組織數據 ............................................................................................................. 34
2.6 爬蟲攻防戰 ..................................................................................................................... 35
第3 章 用API 爬取天氣預報數據 ............................................................... 38
3.1 注冊免費API 和閱讀技術文檔 ..................................................................................... 38
3.2 獲取API 數據 ................................................................................................................ 40
3.3 存儲數據到MongoDB ................................................................................................... 45
3.3.1 下載並安裝MongoDB ............................................................................................ 45
3.3.2 在PyCharm 中安裝Mongo Plugin ......................................................................... 46
3.3.3 將數據存入MongoDB ............................................................................................ 49
3.4 MongoDB 數據庫查詢 ................................................................................................... 52
第4 章 大型爬蟲案例:抓取某電商網站的商品數據 ................................... 55
4.1 觀察頁麵特徵和解析數據 ............................................................................................. 55
...................
書 名Python 3網絡爬蟲開發實戰
係列書名圖靈原創
執行編輯關於本書的內容有任何問題,請聯係 王軍花
書 號978-7-115-48034-7
頁 數608
印刷方式單色
開 本16開
齣版狀態正在排版
定價99.00
本書特色
1.本書詳細介紹瞭爬蟲的關鍵技術,涵蓋麵廣,實用性強。
2.本書作者崔慶纔,北京航空航天大學碩士,北京釘趣網絡公司技術總監,其個人博客為cuiqingcai.com,其上爬蟲文章的瀏覽量總計已過百萬。
目錄
本書介紹瞭如何利用Python 3開發網絡爬蟲,書中首先介紹瞭環境配置和基礎知識,然後討論瞭urllib、requests、正則錶達式、Beautiful Soup、XPath、pyquery、數據存儲、Ajax數據爬取等內容,接著通過多個案例介紹瞭不同場景下如何實現數據爬取,最後介紹瞭pyspider框架、Scrapy框架和分布式爬蟲。
本書適閤Python程序員閱讀。
| 作 譯 者: | |||||||||
| |||||||||
| 所屬分類: >> >> 數據庫 | |||||||||
| 紙質書定價:¥59.0 |
本書作為數據分析的入門圖書,以Python語言為基礎,介紹瞭數據分析的整個流程。本書內容涵蓋數據的獲取(即網絡爬蟲程序的設計)、前期數據的清洗和處理、運用機器學習算法進行建模分析,以及使用可視化的方法展示數據及結果。首先,書中不會涉及過於高級的語法,不過還是希望讀者有一定的語法基礎,這樣可以更好地理解本書的內容。其次,本書重點在於應用Python來完成一些數據分析和數據處理的工作,即如何使用Python來完成工作而非專注於Python語言語法等原理的講解。本書的目的是讓初學者不論對數據分析流程本身還是Python語言,都能有一個十分直觀的感受,為以後的深入學習打下基礎。最後,讀者不必須按順序通讀本書,因為各個章節層次比較分明,可以根據興趣或者需要來自行安排。例如第5章介紹瞭一些實戰的小項目,有趣且難度不大,大傢可以在學習前麵內容之餘來閱讀這部分內容。
1 準備 1
1.1 開發環境搭建 2
1.1.1 在Ubuntu係統下搭建Python集成開發環境 2
1.1.2 在Windows係統下搭建Python集成開發環境 13
1.1.3 三種安裝第三方庫的方法 16
1.2 Python基礎語法介紹 19
1.2.1 if__name__=='__main__' 20
1.2.2 列錶解析式 22
1.2.3 裝飾器 23
1.2.4 遞歸函數 26
1.2.5 麵嚮對象 27
1.3 The Zen of Python 28
參考文獻 30
2 數據的獲取 31
2.1 爬蟲簡介 31
2.2 數據抓取實踐 33
2.2.1 請求網頁數據 33
2.2.2 網頁解析 38
2.2.3 數據的存儲 46
2.3 爬蟲進階 50
2.3.1 異常處理 50
2.3.2 robots.txt 58
2.3.3 動態UA 60
2.3.4 代理IP 61
2.3.5 編碼檢測 61
2.3.6 正則錶達式入門 63
2.3.7 模擬登錄 69
2.3.8 驗證碼問題 74
2.3.9 動態加載內容的獲取 84
2.3.10 多綫程與多進程 93
2.4 爬蟲總結 101
參考文獻 102
3 數據的存取與清洗 103
3.1 數據存取 103
3.1.1 基本文件操作 103
3.1.2 CSV文件的存取 111
3.1.3 JSON文件的存取 116
3.1.4 XLSX文件的存取 121
3.1.5 MySQL數據庫文件的存取 137
3.2 NumPy 145
3.2.1 NumPy簡介 145
3.2.2 NumPy基本操作 146
3.3 pandas 158
3.3.1 pandas簡介 158
3.3.2 Series與DataFrame的使用 159
3.3.3 布爾值數組與函數應用 169
3.4 數據的清洗 174
3.4.1 編碼問題 174
3.4.2 缺失值的檢測與處理 175
3.4.3 去除異常值 181
3.4.4 去除重復值與冗餘信息 183
3.4.5 注意事項 185
參考文獻 187
4 數據的分析及可視化 188
4.1 探索性數據分析 189
4.1.1 基本流程 189
4.1.2 數據降維 197
4.2 機器學習入門 199
4.2.1 機器學習簡介 200
4.2.2 決策樹——機器學習算法的應用 202
4.3 手動實現KNN算法 205
4.3.1 特例——最鄰近分類器 205
4.3.2 KNN算法的完整實現 213
4.4 數據可視化 215
4.4.1 高質量作圖工具——matplotlib 215
4.4.2 快速作圖工具——pandas與matplotlib 223
4.4.3 簡捷作圖工具——seaborn與matplotlib 226
4.4.4 詞雲圖 230
參考文獻 232
5 Python與生活 234
5.1 定製一個新聞提醒服務 234
5.1.1 新聞數據的抓取 235
5.1.2 實現郵件發送功能 237
5.1.3 定時執行及本地日誌記錄 239
5.2 Python與數學 241
5.2.1 估計π值 242
5.2.2 三門問題 245
5.2.3 解決LP與QP問題(選讀) 247
5.3 QQ群聊天記錄數據分析 251
參考文獻 256
這套書的齣版質量也著實讓我感到驚喜。書本的紙張觸感很好,印刷清晰,字體大小適中,長時間閱讀也不會感到疲勞。排版也很閤理,代碼示例和文字解釋分工明確,閱讀體驗非常流暢。而且,書中大量的圖錶和示意圖都設計得非常用心,能夠有效地輔助理解。我特彆喜歡書中對代碼的注釋,詳細解釋瞭每一行代碼的作用,這對於初學者來說簡直是福音,讓我能夠輕鬆地理解代碼的邏輯。此外,作者在講解過程中,會穿插一些行業內的經驗分享和建議,讓我不僅學到技術,還能瞭解到實際應用中的注意事項和最佳實踐。這種“乾貨滿滿”的內容,遠超齣瞭我對一般技術書籍的預期。我覺得這套書不僅僅是知識的傳遞,更是一種學習方法的引導,讓我能夠更有效地吸收和掌握新的知識。每次翻開這本書,都能感受到作者的認真和專業,這讓我對學習充滿瞭動力。
評分最近熬夜看完瞭這套書,感覺真是撿到寶瞭!作為一個完全零基礎的爬蟲小白,我之前嘗試過一些零散的教程,但總是學得雲裏霧裏,要不就是實操起來睏難重重。這套書簡直就是為我量身定做的!《包郵Python3網絡爬蟲開發實戰》這本書,從最基礎的Python環境搭建、requests庫的使用到BeautifulSoup、Scrapy框架的精髓,講解得那叫一個細緻入微。每一個代碼例子都配有清晰的解釋,而且作者非常貼心地考慮到瞭初學者可能會遇到的各種坑,並且給齣瞭解決方案。最讓我驚喜的是,書中的案例都非常貼近實際應用,比如爬取新聞資訊、商品信息、招聘網站數據等等,讓我覺得爬蟲技術不再是高高在上的概念,而是可以解決實際問題的工具。而且,這本書的實戰性極強,幾乎每學到一個新知識點,後麵都會有相應的練習或者項目來鞏固,讓我能夠在動手實踐中不斷提升。讀完這本書,我感覺自己已經掌握瞭構建一個簡單爬蟲的基本技能,甚至能夠獨立完成一些小型的爬取任務,這讓我非常有成就感!
評分《數據分析入門》這本書,簡直就是我學習數據分析的“啓濛之光”!在此之前,我對數據分析的認知僅限於一些零散的概念,感覺無從下手。這本書以非常平易近人的語言,解釋瞭數據分析的基本流程、常用的統計學概念以及一些基礎的分析方法。從數據的收集、整理、探索性數據分析(EDA)到結果的解釋,這本書都給瞭我一個清晰的框架。作者並沒有一開始就堆砌復雜的數學公式,而是通過大量的圖示和生活中的例子,讓我理解數據分析的核心思想。讓我印象深刻的是,書中講解瞭如何運用Excel和Python進行基本的數據統計和分析,這對於剛接觸數據分析的人來說非常友好,能夠快速建立起信心。而且,這本書非常注重培養讀者的分析思維,教我如何提齣有價值的問題,如何設計閤理的分析方案,以及如何從數據中得齣有意義的結論。讀完這本書,我感覺自己不再害怕麵對數據,而是能夠帶著好奇心和邏輯去探索數據背後的故事,為後續更深入的學習打下瞭堅實的基礎。
評分總的來說,這套書的組閤拳效果非常顯著,從爬蟲的構建,到數據的處理和可視化,再到數據分析的入門,構成瞭一個完整且連貫的學習路徑。對於想要進入數據領域,或者希望提升自己數據處理能力的讀者來說,這套書的價值是毋庸置疑的。我之前在網上看過很多碎片化的學習資料,但總覺得不夠係統,容易遺漏重要知識點。而這套書就恰恰彌補瞭這一不足,它提供瞭一個由淺入深、循序漸進的學習體係。我能夠清晰地看到,從零開始,如何一步步地掌握一門核心的數據技能。更重要的是,這些書中的內容都緊跟技術發展的步伐,使用的都是當前主流的工具和庫,確保瞭學習內容的實用性和前沿性。對於我這樣一個希望在數據領域有所發展的職場人士來說,這套書無疑是一筆寶貴的財富,它為我打開瞭通往更廣闊職業前景的大門。
評分這套書中的《Python3爬蟲數據清洗與可視化實戰》更是讓我眼前一亮。之前的爬蟲學習,我總覺得爬下來的數據雜亂無章,處理起來非常頭疼,有時候寜可手動去整理。這本書徹底解決瞭我的睏擾!它係統地介紹瞭Pandas庫在數據清洗方麵的強大功能,從缺失值處理、異常值檢測到數據類型轉換、重復值去除,講解得邏輯清晰,步驟分明。作者還提供瞭大量真實數據集作為練習,讓我能夠邊學邊練,快速掌握這些核心技能。更重要的是,這本書並沒有止步於數據清洗,而是將目光投嚮瞭數據可視化。Matplotlib和Seaborn的運用,讓我能夠將枯燥的數據變成生動形象的圖錶,直觀地展現數據的規律和趨勢。我學會瞭如何製作摺綫圖、柱狀圖、散點圖,甚至是一些更復雜的圖錶,比如熱力圖和箱綫圖。這些可視化技巧不僅讓我的數據分析報告更加專業,也讓我能夠更快地從數據中挖掘齣有價值的信息。這本書的實操性同樣非常高,很多案例都涉及到瞭實際業務場景,讓我能直接套用到自己的項目中,大大提高瞭工作效率。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.tinynews.org All Rights Reserved. 静思书屋 版权所有