目 录
第壹章?理解网络爬虫 1
1.1 爬虫的定义 1
1.2 爬虫的类型 2
1.3 爬虫的原理 3
1.4 爬虫的搜索策略 5
1.5 反爬虫技术及解决方案 6
1.6 本章小结 8
第2章?爬虫开发基础 9
2.1 HTTP与HTTPS 9
2.2 请求头 11
2.3 Cookies 13
2.4 HTML 14
2.5 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小结 20
第3章?Chrome分析网站 21
3.1 Chrome开发工具 21
3.2 Elements标签 22
3.3 Network标签 23
3.4 分析QQ音乐 27
3.5 本章小结 29
第4章?Fiddler抓包工具 30
4.1 Fiddler介绍 30
4.2 Fiddler安装配置 31
4.3 Fiddler抓取手机应用 33
4.4 Toolbar工具栏 36
4.5 Web Session列表 37
4.6 View选项视图 40
4.7 Quickexec命令行 41
4.8 本章小结 42
第5章?Urllib数据抓取 43
5.1 Urllib简介 43
5.2 发送请求 44
5.3 复杂的请求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 证书验证 50
5.7 数据处理 51
5.8 本章小结 52
第6章?Requests数据抓取 54
6.1 Requests简介及安装 54
6.2 请求方式 55
6.3 复杂的请求方式 57
6.4 下载与上传 60
6.5 本章小结 63
第7章?验证码识别 64
7.1 验证码类型 64
7.2 OCR技术 66
7.3 第三方平台 69
7.4 本章小结 72
第8章?数据清洗 74
8.1 字符串操作 74
8.2 正则表达式 78
8.3 Beautiful Soup介绍及安装 84
8.4 Beautiful Soup的使用 86
8.5 本章小结 90
第9章?文档数据存储 92
9.1 CSV数据写入和读取 92
9.2 Excel数据写入和读取 94
9.3 Word数据写入和读取 99
9.4 本章小结 101
第壹0章?ORM框架 104
10.1 SQLAlchemy介绍 104
10.2 安装SQLAlchemy 105
10.3 连接数据库 106
10.4 创建数据表 108
10.5 添加数据 111
10.6 更新数据 112
10.7 查询数据 114
10.8 本章小结 116
第壹1章?MongoDB数据库操作 118
11.1 MongoDB介绍 118
11.2 安装及使用 120
11.2.1 MongoDB 120
11.2.2 MongoDB可视化工具 121
11.2.3 PyMongo 123
11.3 连接数据库 123
11.4 添加文档 125
11.5 更新文档 126
11.6 查询文档 127
11.7 本章小结 130
第壹2章?项目实战:爬取淘宝商品信息 131
12.1 分析说明 131
12.2 功能实现 134
12.3 数据存储 136
12.4 本章小结 138
第壹3章?项目实战:分布式爬虫——QQ音乐 139
13.1 分析说明 139
13.2 歌曲下载 140
13.3 歌手和歌曲信息 145
13.4 分类歌手列表 148
13.5 全站歌手列表 150
13.6 数据存储 152
13.7 分布式概念 154
13.7.1 GIL是什么 154
13.7.2 为什么会有GIL 154
13.8 并发库concurrent.futures 155
13.9 分布式爬虫 157
13.10 本章小结 159
系列书名图灵原创
执行编辑关于本书的内容有任何问题,请联系 王军花
书 号978-7-115-48034-7
页 数608
印刷方式单色
开 本16开
出版状态正在排版
定价99.00
本书特色
1.本书详细介绍了爬虫的关键技术,涵盖面广,实用性强。
2.本书作者崔庆才,北京航空航天大学硕士,北京钉趣网络公司技术总监,其个人博客为cuiqingcai.com,其上爬虫文章的浏览量总计已过百万。
目录
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫。
本书适合Python程序员阅读。
1-开发环境配置
1.1-Python3的安装
1.2-请求库的安装
1.2.1-Requests的安装
1.2.2-Selenium的安装
1.2.3-ChromeDriver的安装
1.2.4-GeckoDriver的安装
1.2.5-PhantomJS的安装
1.2.6-aiohttp的安装
1.3-解析库的安装
1.3.1-lxml的安装
1.3.2-Beautiful Soup的安装
1.3.3-pyquery的安装
1.3.4-tesserocr的安装
1.4-数据库的安装
1.4.1-MySQL的安装
1.4.2-MongoDB安装
1.4.3-Redis的安装
1.5-存储库的安装
1.5.1-PyMySQL的安装
1.5.2-PyMongo的安装
1.5.3-redis-py的安装
1.5.4-RedisDump的安装
1.6-Web库的安装
1.6.1-Flask的安装
1.6.2-Tornado的安装
1.7-App爬取相关库的安装
1.7.1-Charles的安装
1.7.2-mitmproxy的安装
1.7.3-Appium的安装
1.8-爬虫框架的安装
1.8.1-pyspider的安装
1.8.2-Scrapy的安装
1.8.3-Scrapy-Splash的安装
1.8.4-Scrapy-Redis的安装
1.9-部署相关库的安装
1.9.1-Docker的安装
1.9.2-Scrapyd的安装
1.9.3-Scrapyd-Client的安装
1.9.4-Scrapyd API的安装
1.9.5-Scrapyrt的安装
1.9.6-Gerapy的安装
2-爬虫基础
2.1-HTTP基本原理
2.2-网页基础
2.3-爬虫的基本原理
2.4-会话和Cookies
2.5-代理的基本原理
3-基本库的使用
3.1-使用urllib
3.1.1-发送请求
3.1.2-处理异常
3.1.3-解析链接
3.1.4-分析Robots协议
3.2-使用requests
3.2.1-基本用法
3.2.2-高级用法
3.3-正则表达式
3.4-抓取猫眼电影排行
4-解析库的使用
4.1-使用XPath
4.2-使用Beautiful Soup
4.3-使用pyquery
5-数据存储
5.1-文件存储
5.1.1-TXT文本存储
5.1.2-JSON文件存储
5.1.3-CSV文件存储
5.2-关系型数据库存储
5.2.1-MySQL存储
5.3-非关系型数据库存储
5.3.1-MongoDB存储
5.3.2-Redis存储
6-Ajax数据爬取
6.1-什么是Ajax
6.2-Ajax分析方法
6.3-Ajax结果提取
6.4-分析Ajax爬取今日头条街拍美图
7-动态渲染页面爬取
7.1-Selenium的使用
7.2-Splash的使用
7.3-Splash负载均衡配置
7.4-使用Selenium爬取淘宝商品
8-验证码的识别
8.1-图形验证码的识别
8.2-极验滑动验证码的识别
8.3-点触验证码的识别
8.4-微博宫格验证码的识别
9-代理的使用
9.1-代理的设置
9.2-代理池的维护
9.3-付费代理的使用
9.4-ADSL拨号代理
9.5-使用代理爬取微信公众号文章
10-模拟登录
10.1-模拟登录并爬取GitHub
10.2-Cookies池的搭建
11-App的爬取
11.1-Charles的使用
11.2-mitmproxy的使用
11.3-mitmdump爬取“得到”App电子书信息
11.4-Appium的基本使用
11.5-Appium爬取微信朋友圈
11.6-Appium+mitmdump爬取京东商品
12-pyspider框架的使用
12.1-pyspider框架介绍
12.2-pyspider的基本使用
12.3-pyspider用法详解
13-Scrapy框架的使用
13.1-Scrapy框架介绍
13.2-Scrapy入门
13.3-Selector的用法
13.4-Spider的用法
13.5-Downloader Middleware的用法
13.6-Spider Middleware的用法
13.7-Item Pipeline的用法
13.8-Scrapy对接Selenium
13.9-Scrapy对接Splash
13.10-Scrapy通用爬虫
13.11-Scrapyrt的使用
13.12-Scrapy对接Docker
13.13-Scrapy爬取新浪微博
14-分布式爬虫
14.1-分布式爬虫原理
14.2-Scrapy-Redis源码解析
14.3-Scrapy分布式实现
14.4-Bloom Filter的对接
15-分布式爬虫的部署
本书专门针对Python新手量身设计,涵盖了Python 3.5 实际开发的重要知识点。
编者使用通俗易懂的描述和丰富的示例代码,并结合日常生活中的一些小事件,使本书读起来生动有趣,一些复杂的问题也以简单的形式展现出来,读者学起来不仅轻松,而且可以充分感受到Python的魅力。
学编程必须动手才能见到成效,本书在设计上特别强调讲练结合,注重实践,不仅在讲解的过程中结合大量代码示例,同时适时穿插小项目演练,以锻炼读者的程序设计能力。
各章安排了程序调试、问题解答、温故知新等主题,帮助读者发现程序错误,解答学习中的困惑,巩固所学知识。
本书·后通过两个Python热门应用——数据分析和网络爬虫,介绍了Python在实际开发中的方法和技巧,旨在提升读者的开发技能,达成学以致用之目标。
Python 3.5入门,夯实基础,为编程生涯打下坚实基石 对于完全没有编程基础的我来说,选择一本合适的Python入门书籍至关重要。《Python 3.5从零开始学》这本书,是我开启Python编程学习之旅的第一个重要伙伴。它就像一位循循善诱的引路人,带领我一步步走进Python的世界。 这本书最大的优点在于它的“从零开始”定位。作者并没有预设读者任何的编程背景,而是从最基本的概念讲起,比如什么是编程语言、Python的优势、如何安装Python环境等等。每一个概念的讲解都力求通俗易懂,配合清晰的代码示例,让我能够快速理解并动手实践。 书中涵盖了Python的基础语法,包括变量、数据类型、运算符、控制流语句(if/else, for, while)、函数、列表、元组、字典等。这些都是Python编程的基石,作者的讲解非常有条理,不会一下子灌输太多知识点,而是循序渐进,确保我在掌握一个概念后再进入下一个。让我特别喜欢的是,书中通过大量的练习题来巩固知识点,让我能够及时检测自己的学习成果,并发现和纠正错误。这本书为我打下了坚实的Python编程基础,为我后续学习更高级的Python应用(比如爬虫)铺平了道路。
评分精进爬虫技艺,应对复杂挑战,成为数据获取专家 在掌握了Python爬虫的基础和一些进阶技巧之后,我开始面临一些更具挑战性的爬虫任务。这时,《Python网络爬虫开发实战》这本书再次成为我的宝贵资源。它不仅仅是“开发实战”,更是“进阶实战”,帮助我突破了许多瓶颈。 这本书深入探讨了如何处理动态网页,这对于现代互联网来说是必不可少的技能。作者详细讲解了Selenium WebDriver的使用,如何通过模拟浏览器行为来抓取JavaScript渲染的内容,以及如何处理AJAX请求。这些技术让我能够应对那些静态HTML难以解决的网站,大大扩展了我的抓取范围。 此外,本书对分布式爬虫和高并发爬虫的讲解也相当精彩。它介绍了如何利用Celery、Redis等工具构建分布式的爬虫系统,实现大规模数据的抓取和处理。对于如何提高爬虫的效率和稳定性,书中也提供了很多实用的建议和代码模板。让我印象深刻的是,作者还分享了一些关于爬虫伦理和法律风险的讨论,这让我意识到在追求技术的同时,更需要遵守规则。总的来说,这本书让我从一个“爬虫使用者”成长为一名能够应对复杂情况、独立解决问题的“数据获取专家”。
评分Python 3.5初探,掌握核心,开启编程世界的无限可能 在接触Python爬虫之前,我对编程语言一窍不通。《Python 3.5从零开始学》这本书,就是我进入编程世界的第一扇门。它以一种非常友好的方式,让我对Python这门语言产生了浓厚的兴趣。 这本书并没有上来就讲复杂的算法或高级概念,而是从最基本的“Hello, World!”开始,一步步引导我了解Python的语法结构。变量的定义、数据类型的多样性、运算符的妙用,这些看似简单的概念,在作者的讲解下变得生动有趣。书中对于代码的解释非常细致,让我能够理解每一行代码背后的逻辑。 我特别喜欢书中对流程控制语句(如if、for、while)的讲解。通过这些语句,我开始学会如何让程序做出判断、如何循环执行任务,这让我第一次感受到编程的魅力——控制计算机按照我的意愿去工作。此外,函数和数据结构(列表、字典)的介绍,也为我后续编写更复杂的程序打下了基础。这本书的语言风格亲切,就像一位老朋友在和我聊天,让我学习过程充满了乐趣,也让我对Python产生了极大的信心,并开始期待将它应用于更广泛的领域。
评分初学者入门,扫清迷雾,开启Python爬虫之旅 作为一名对数据抓取充满好奇心的新手小白,我一直在寻找一本能够真正带我入门Python网络爬虫的书籍。市面上相关书籍琳琅满目,但很多都过于理论化,或者直接跳跃到高级技巧,让我望而却步。直到我翻开了这本《预售包邮玩转Python网络爬虫》,我的爬虫学习之路才真正拨开云雾。 这本书最大的亮点在于它的循序渐进。从最基础的Python环境搭建,到HTTP协议的原理讲解,再到Requests库和BeautifulSoup库的基本使用,每一个章节都清晰明了,就像一位耐心十足的老师,手把手地教你如何一步步构建自己的爬虫。作者并没有一开始就抛出复杂的代码,而是通过一个个生动有趣的实例,比如抓取简单的网页信息、解析HTML结构,让我能够迅速理解概念并亲手实践。 更让我惊喜的是,书中还包含了如何处理一些常见问题的技巧,比如如何应对反爬机制、如何进行数据存储等。这些都是实际开发中必不可少的部分,而这本书在早期就将其融入讲解,让我对接下来的学习充满了信心。而且,作者的语言风格非常接地气,没有太多晦涩难懂的术语,即使是初学者也能轻松理解。总而言之,这本书就像一本通往Python爬虫世界的“入门护照”,为我打开了扇新世界的大门。
评分进阶实战,深度挖掘,成就Python爬虫高手之路 在掌握了Python网络爬虫的基础知识后,我渴望能够深入了解更复杂的爬虫技术,并将其应用于实际项目中。《Python网络爬虫开发实战》这本书无疑满足了我的这一需求。它不仅仅停留在基础的“抓取”层面,而是将视野放宽到整个爬虫开发的“实战”环节。 这本书的内容涵盖了从数据采集、数据清洗、数据存储到数据分析的整个流程。作者通过大量的实际案例,详细讲解了如何运用Scrapy框架构建高性能的爬虫项目,如何处理动态加载的网页、JavaScript渲染的内容,以及如何应对各种复杂的反爬策略。让我印象深刻的是,书中对多线程、多进程、异步编程在爬虫中的应用进行了深入的剖析,这对于提升爬虫的效率和稳定性至关重要。 除此之外,本书还涉及了如代理IP的使用、验证码识别、甚至是一些简单的机器学习模型在爬虫数据分析中的应用。这些内容对于我来说是全新的领域,但作者的讲解逻辑清晰,代码示例详实,让我能够一步步跟着操作,最终融会贯通。读完这本书,我感觉自己不再是一个只会“抓取”的小学生,而是能够独立设计、开发、并优化复杂的网络爬虫项目,真正具备了“实战”能力。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有