案例丰富,注重实战
博客文章过百万的静觅大神力作
全面介绍了数据采集、数据存储、动态网站爬取、App爬取、验证码破解、模拟登录、代理使用、爬虫框架、分布式爬取等知识
涉及的库或工具:urllib、requests、Beautiful Soup、XPath、pyquery、redis-py、PyMongo、PyMySQL、Selenium、Splash、Charles、mitmproxy、mitmdump、Appium、pyspider、Scrapy、Scrapy-Redis、Scrapy-Splash、Docker、Bloom Filter、Gerapy等
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫。
本书适合Python程序员阅读。
第1章 开发环境配置 1
1.1 Python 3的安装 1
1.1.1 Windows下的安装 1
1.1.2 Linux下的安装 6
1.1.3 Mac下的安装 8
1.2 请求库的安装 10
1.2.1 requests的安装 10
1.2.2 Selenium的安装 11
1.2.3 ChromeDriver的安装 12
1.2.4 GeckoDriver的安装 15
1.2.5 PhantomJS的安装 17
1.2.6 aiohttp的安装 18
1.3 解析库的安装 19
1.3.1 lxml的安装 19
1.3.2 Beautiful Soup的安装 21
1.3.3 pyquery的安装 22
1.3.4 tesserocr的安装 22
1.4 数据库的安装 26
1.4.1 MySQL的安装 27
1.4.2 MongoDB的安装 29
1.4.3 Redis的安装 36
1.5 存储库的安装 39
1.5.1 PyMySQL的安装 39
1.5.2 PyMongo的安装 39
1.5.3 redis-py的安装 40
1.5.4 RedisDump的安装 40
1.6 Web库的安装 41
1.6.1 Flask的安装 41
1.6.2 Tornado的安装 42
1.7 App爬取相关库的安装 43
1.7.1 Charles的安装 44
1.7.2 mitmproxy的安装 50
1.7.3 Appium的安装 55
1.8 爬虫框架的安装 59
1.8.1 pyspider的安装 59
1.8.2 Scrapy的安装 61
1.8.3 Scrapy-Splash的安装 65
1.8.4 Scrapy-Redis的安装 66
1.9 部署相关库的安装 67
1.9.1 Docker的安装 67
1.9.2 Scrapyd的安装 71
1.9.3 Scrapyd-Client的安装 74
1.9.4 Scrapyd API的安装 75
1.9.5 Scrapyrt的安装 75
1.9.6 Gerapy的安装 76
第2章 爬虫基础 77
2.1 HTTP基本原理 77
2.1.1 URI和URL 77
2.1.2 超文本 78
2.1.3 HTTP和HTTPS 78
2.1.4 HTTP请求过程 80
2.1.5 请求 82
2.1.6 响应 84
2.2 网页基础 87
2.2.1 网页的组成 87
2.2.2 网页的结构 88
2.2.3 节点树及节点间的关系 90
2.2.4 选择器 91
2.3 爬虫的基本原理 93
2.3.1 爬虫概述 93
2.3.2 能抓怎样的数据 94
2.3.3 渲染页面 94
2.4 会话和Cookies 95
2.4.1 静态网页和动态网页 95
2.4.2 无状态HTTP 96
2.4.3 常见误区 98
2.5 代理的基本原理 99
2.5.1 基本原理 99
2.5.2 代理的作用 99
2.5.3 爬虫代理 100
2.5.4 代理分类 100
2.5.5 常见代理设置 101
第3章 基本库的使用 102
3.1 使用urllib 102
3.1.1 发送请求 102
3.1.2 处理异常 112
3.1.3 解析链接 114
3.1.4 分析Robots协议 119
3.2 使用requests 122
3.2.1 基本用法 122
3.2.2 高级用法 130
3.3 正则表达式 139
3.4 抓取猫眼电影排行 150
第4章 解析库的使用 158
4.1 使用XPath 158
4.2 使用Beautiful Soup 168
4.3 使用pyquery 184
第5章 数据存储 197
5.1 文件存储 197
5.1.1 TXT文本存储 197
5.1.2 JSON文件存储 199
5.1.3 CSV文件存储 203
5.2 关系型数据库存储 207
5.2.1 MySQL的存储 207
5.3 非关系型数据库存储 213
5.3.1 MongoDB存储 214
5.3.2 Redis存储 221
第6章 Ajax数据爬取 232
6.1 什么是Ajax 232
6.2 Ajax分析方法 234
6.3 Ajax结果提取 238
6.4 分析Ajax爬取今日头条街拍美图 242
第7章 动态渲染页面爬取 249
7.1 Selenium的使用 249
7.2 Splash的使用 262
7.3 Splash负载均衡配置 286
7.4 使用Selenium爬取淘宝商品 289
第8章 验证码的识别 298
8.1 图形验证码的识别 298
8.2 极验滑动验证码的识别 301
8.3 点触验证码的识别 311
8.4 微博宫格验证码的识别 318
第9章 代理的使用 326
9.1 代理的设置 326
9.2 代理池的维护 333
9.3 付费代理的使用 347
9.4 ADSL拨号代理 351
9.5 使用代理爬取微信公众号文章 364
第10章 模拟登录 379
10.1 模拟登录并爬取GitHub 379
10.2 Cookies池的搭建 385
第11章 App的爬取 398
11.1 Charles的使用 398
11.2 mitmproxy的使用 405
11.3 mitmdump爬取“得到”App电子书
信息 417
11.4 Appium的基本使用 423
11.5 Appium爬取微信朋友圈 433
11.6 Appium+mitmdump爬取京东商品 437
第12章 pyspider框架的使用 443
12.1 pyspider框架介绍 443
12.2 pyspider的基本使用 445
12.3 pyspider用法详解 459
第13章 Scrapy框架的使用 468
13.1 Scrapy框架介绍 468
13.2 Scrapy入门 470
13.3 Selector的用法 480
13.4 Spider的用法 486
13.5 Downloader Middleware的用法 487
13.6 Spider Middleware的用法 494
13.7 Item Pipeline的用法 496
13.8 Scrapy对接Selenium 506
13.9 Scrapy对接Splash 511
13.10 Scrapy通用爬虫 516
13.11 Scrapyrt的使用 533
13.12 Scrapy对接Docker 536
13.13 Scrapy爬取新浪微博 541
第14章 分布式爬虫 555
14.1 分布式爬虫原理 555
14.2 Scrapy-Redis源码解析 558
14.3 Scrapy分布式实现 564
14.4 Bloom Filter的对接 569
第15章 分布式爬虫的部署 577
15.1 Scrapyd分布式部署 577
15.2 Scrapyd-Client的使用 582
15.3 Scrapyd对接Docker 583
15.4 Scrapyd批量部署 586
15.5 Gerapy分布式管理 590
这本书对我来说,就像打开了一扇通往数据世界的大门,让我看到了一个充满无限可能的新天地。在阅读之前,我对于如何从互联网上获取信息,特别是那些看似杂乱无章的网页内容,感到非常迷茫。市面上有很多关于编程和数据的书籍,但很多要么过于理论化,要么直接给出代码示例却缺乏深入的解释,让人难以真正理解背后的逻辑。而这本书,则以一种非常系统和循序渐进的方式,将网络爬虫的开发过程娓娓道来。从最基础的HTTP协议原理,到Scrapy框架的安装与配置,再到如何定位和提取网页中的目标数据,每一个环节都讲解得极其清晰。书中大量的实战案例,更是让我印象深刻。无论是抓取新闻网站的标题和链接,还是爬取电商平台的商品信息,又或是从论坛中提取用户评论,作者都提供了详细的步骤和代码,并且在讲解过程中,反复强调了设计模式和代码复用的重要性,这让我不仅仅学会了“怎么做”,更理解了“为什么这么做”。这对于我这样希望深入理解技术本质的读者来说,实在是太宝贵了。它帮助我建立了一种解决问题的思维方式,而不是简单地复制粘贴代码。
评分作为一名对数据分析充满好奇但又缺乏实操经验的职场新人,我一直渴望能找到一本既能讲解数据处理方法,又能指导具体实践的书籍。市面上关于数据分析的书籍琳琅满目,但很多都侧重于理论模型的介绍,或者过于依赖特定的高级工具,对我这样刚起步的读者来说,门槛着实不低。直到我遇到了这本书,才感觉找到了“救星”。它不仅仅是教我如何使用Python进行数据分析,更重要的是,它将数据抓取、清洗、分析和可视化这整个流程串联了起来,形成了一个完整的“数据生命周期”的认知。书中的案例非常贴近实际工作场景,例如如何分析用户行为数据来优化产品,如何通过抓取行业数据来制定市场策略等等。作者在讲解数据清洗时,特别强调了处理缺失值、异常值以及数据格式转换的重要性,并且提供了多种实用的Python库(如Pandas)的应用技巧。更让我惊喜的是,书中还涉及了如何将分析结果以图表的形式呈现出来,这对于向他人传达分析洞察至关重要。这本书的价值在于,它帮助我摆脱了“看到数据就头疼”的困境,让我对数据分析产生了前所未有的信心和兴趣。
评分在学习Python的过程中,我一直苦于找不到一个能够将理论知识与实际应用完美结合的书籍。很多教程都停留在语法层面,或者给出一些非常基础的示例,很难让我将所学应用到解决实际问题上。这本书,则像一座连接理论与实践的桥梁,为我提供了极具价值的实战指导。我特别喜欢书中对于数据抓取各个环节的深入探讨。从最初的网页结构分析,到CSS选择器和XPath表达式的应用,再到如何处理JavaScript渲染的动态页面,作者都给出了非常详细的教程和实用的技巧。让我印象深刻的是,书中对于如何处理不同类型的数据,以及如何将抓取到的数据结构化存储,也进行了充分的讲解,例如如何将数据保存为CSV、JSON格式,或者直接导入数据库。这让我意识到,数据抓取不仅仅是“下载”数据,更重要的是对数据的“结构化”处理,为后续的分析打下坚实的基础。这本书的优点在于,它循序渐进,难度适中,并且始终围绕着“解决实际问题”这个核心目标来展开,让我在学习过程中能够不断看到自己的进步,从而保持学习的热情。
评分我一直对信息检索和自动化数据获取充满兴趣,但传统的手动复制粘贴效率低下且容易出错。在尝试了一些简单的脚本语言后,我发现自己仍然需要一个强大而灵活的工具来应对复杂的网络环境。这本书的出现,彻底改变了我对网络爬虫技术的认知。它并非仅仅介绍了一个工具的使用方法,而是深入剖析了Scrapy框架的设计哲学和工作原理。作者通过对Scrapy核心组件的细致讲解,让我理解了Item Pipeline、Spider、Downloader Middleware等模块是如何协同工作的,以及如何通过扩展这些模块来实现更复杂的功能,比如反爬虫机制的应对、代理IP的使用、以及登录验证的处理。书中的每一个章节都充满了作者的“干货”分享,他将自己在实际项目中遇到的各种坑和解决方案都毫无保留地呈献出来,这对于读者来说,无疑是极大的财富。我尤其欣赏作者在讲解过程中,对于各种场景下不同策略的选择和权衡的分析,这让我学会了如何根据具体情况来设计和优化爬虫程序,而不是死板地套用模板。这本书让我从一个“工具使用者”成长为一个“技术理解者”,受益匪浅。
评分作为一名对数据驱动决策充满热情的初学者,我一直在寻找一本能够真正帮助我掌握数据抓取和初步分析技能的书籍。市面上充斥着各种关于数据科学的入门书籍,但很多都过于偏重理论,或者需要预备的知识背景很高。这本书,却以一种异常务实和接地气的方式,引领我走进了数据抓取的世界。它没有一开始就抛出复杂的概念,而是从最基础的HTTP协议讲起,然后逐步引入Python语言和相关的库,最终将我带入了Scrapy这个强大的爬虫框架。我非常欣赏书中关于如何“看懂”网页结构,以及如何利用选择器精准定位信息的讲解。作者用了很多生动的例子,让我能够理解不同网页的特点,并学会如何根据网页的结构来制定抓取策略。更重要的是,书中对于数据抓取过程中可能遇到的各种问题,例如网络延迟、反爬虫机制、以及数据清洗的常见挑战,都给出了非常实用且可操作的解决方案。这本书让我觉得,学习网络爬虫不再是一件遥不可及的事情,而是可以通过系统学习和实践,逐步掌握的一项重要技能。
评分质量更好,没有损坏。
评分书是一直以来想要的,外观良好,书的质量没有受影响。
评分作为一个搞底层技术的人,还是要学习下新的东西。
评分超厚一本,而且价格比其他店便宜很多~而且上图灵查了一下,是正版。
评分3天收到。是不错。今年4月份印制的。很新鲜。技术也新鲜
评分3天收到。是不错。今年4月份印制的。很新鲜。技术也新鲜
评分超厚一本,而且价格比其他店便宜很多~而且上图灵查了一下,是正版。
评分质量很好,非常满意!
评分书是一直以来想要的,外观良好,书的质量没有受影响。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有