YL13954 9787115474209 9787115416292
书名: 精通Python爬虫框架Scrapy
定价: 59.00元
出版社名称: 人民邮电出版社
出版时间: 2018年2月
作者: 迪米特里奥斯 考奇斯-劳卡斯
译者: 李斌
开本: 16开
ISBN: 9787115474209
目录
*1章 Scrapy简介 1
1.1 初识Scrapy 1
1.2 喜欢Scrapy的更多理由 2
1.3 关于本书:目标和用途 3
1.4 掌握自动化数据爬取的重要性 4
1.4.1 开发健壮且高质量的应用,并提供合理规划 4
1.4.2 快速开发高质量*小可行产品 5
1.4.3 Google不会使用表单,爬取才能扩大规模 6
1.4.4 发现并融入你的生态系统 7
1.5 在充满爬虫的世界里做一个好公民 7
1.6 Scrapy不是什么 8
1.7 本章小结 9
*2章 理解HTML和XPath 10
2.1 HTML、DOM树表示以及XPath 10
2.1.1 URL 11
2.1.2 HTML文档 11
2.1.3 树表示法 13
2.1.4 你会在屏幕上看到什么 14
2.2 使用XPath选择HTML元素 15
2.2.1 有用的XPath表达式 16
2.2.2 使用Chrome获取XPath表达式 19
2.2.3 常见任务示例 20
2.2.4 预见变化 21
2.3 本章小结 22
3章 爬虫基础 23
3.1 安装Scrapy 24
3.1.1 MacOS 24
3.1.2 Windows 25
3.1.3 Linux 25
3.1.4 *新源码安装 26
3.1.5 升级Scrapy 26
3.1.6 Vagrant:本书中运行示例的官方方式 27
3.2 UR2IM——基本抓取流程 28
3.2.1 URL 29
3.2.2 请求和响应 31
3.2.3 Item 31
3.3 一个Scrapy项目 37
3.3.1 声明item 38
3.3.2 编写爬虫 40
3.3.3 填充item 43
3.3.4 保存文件 45
3.3.5 清理——item装载器与管理字段 47
3.3.6 创建contract 50
... ...
Python网络数据采集 |
基本信息 |
作者: (美) 米切尔 (Ryan Mitchell) |
译者: 陶俊杰 陈小莉 |
丛书名: 图灵程序设计丛书 |
出版社:人民邮电出版社 |
ISBN:9787115416292 |
上架时间:2016-3-4 |
出版日期:2016 年3月 |
开本:16开 |
页码:200 |
版次:1-1 |
目录 |
译者序 ix |
前言 xi |
一部分 创建爬虫 |
1章 初见网络爬虫 2 |
1.1 网络连接 2 |
1.2 BeautifulSoup简介 4 |
1.2.1 安装BeautifulSoup 5 |
1.2.2 运行BeautifulSoup 7 |
1.2.3 可靠的网络连接 8 |
2章 复杂HTML解析 11 |
2.1 不是一直都要用锤子 11 |
2.2 再端一碗BeautifulSoup 12 |
2.2.1 BeautifulSoup的find()和findAll() 13 |
2.2.2 其他BeautifulSoup对象 15 |
2.2.3 导航树 16 |
2.3 正则表达式 19 |
2.4 正则表达式和BeautifulSoup 23 |
2.5 获取属性 24 |
2.6 Lambda表达式 24 |
2.7 超越BeautifulSoup 25 |
3章 开始采集 26 |
3.1 遍历单个域名 26 |
3.2 采集整个网站 30 |
3.3 通过互联网采集 34 |
3.4 用Scrapy采集 38 |
4章 使用API 42 |
4.1 API概述 43 |
4.2 API通用规则 43 |
4.2.1 方法 44 |
4.2.2 验证 44 |
4.3 服务器响应 45 |
4.4 Echo Nest 46 |
4.5 Twitter API 48 |
4.5.1 开始 48 |
4.5.2 几个示例 50 |
4.6 Google API 52 |
4.6.1 开始 52 |
4.6.2 几个示例 53 |
4.7 解析JSON数据 55 |
4.8 回到主题 56 |
4.9 再说一点API 60 |
5章 存储数据 61 |
5.1 媒体文件 61 |
5.2 把数据存储到CSV 64 |
5.3 MySQL 65 |
5.3.1 安装MySQL 66 |
5.3.2 基本命令 68 |
5.3.3 与Python整合 71 |
5.3.4 数据库技术与**实践 74 |
5.3.5 MySQL里的“六度空间游戏” 75 |
5.4 Email 77 |
6章 读取文档 80 |
6.1 文档编码 80 |
6.2 纯文本 81 |
6.3 CSV 85 |
6.4 PDF 87 |
6.5 微软Word和.docx 88 |
二部分 **数据采集 |
7章 数据清洗 94 |
7.1 编写代码清洗数据 94 |
7.2 数据存储后再清洗 98 |
8章 自然语言处理 103 |
8.1 概括数据 104 |
8.2 马尔可夫模型 106 |
8.3 自然语言工具包 112 |
8.3.1 安装与设置 112 |
8.3.2 用NLTK做统计分析 113 |
8.3.3 用NLTK做词性分析 115 |
8.4 其他资源 119 |
9章 穿越网页表单与登录窗口进行采集 120 |
9.1 Python Requests库 120 |
9.2 提交一个基本表单 121 |
9.3 单选按钮、复选框和其他输入 123 |
9.4 提交文件和图像 124 |
9.5 处理登录和cookie 125 |
9.6 其他表单问题 127 |
评分
评分
评分
评分
评分
评分
评分
评分
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.idnshop.cc All Rights Reserved. 静思书屋 版权所有