强烈建议你试试无所不能的chatGPT，快点击我

Python-S9-Day127-Scrapy爬虫框架2

阅读量：5290 次

发布时间：2019-06-14

本文共 1186 字，大约阅读时间需要 3 分钟。

01 今日内容概要

02 内容回顾：爬虫

03 内容回顾：并发和网络

04 Scrapy框架：起始请求定制

05 Scrapy框架：深度和优先级

06 Scrapy框架：内置代理

07 Scrapy框架：自定义代理

08 Scrapy框架：解析器

01 今日内容概要

1.1 starts_url;

1.2 下载中间件；

代理

1.3 解析器

1.4 爬虫中间件

深度

优先级

02 内容回顾：爬虫

2.1 Scrapy依赖Twisted

2.2 Twisted是什么以及他和requests的区别？

　　2.2.1 requests是一个Python实现的可以伪造浏览器发送HTTP请求的模块；——封装SOCKET发送请求；

　　2.2.2 Twisted是基于事件循环的异步非阻塞循环网络框架； ——封装SOCKET发送请求，单线程完成并发请求；

非阻塞：不等待；

异步：回调；

事件循环：不断地去轮询去检查状态；

2.3 HTTP请求的本质；

请求头

请求体

2.4 Scrapy

创建project

创建爬虫

启动爬虫

response对象-text、body、request

xpath解析器——/ // .// //div[@x = "xx"] //div/text() //div/@href .extract() .extract_first()

2.5 pipeline持久化

pipeline的5个方法

爬虫中：yield Item对象

yield Request对象

cookie

03 内容回顾：并发和网络

3.1 OSI七层模型，TCP/IP五层模型，

3.2 三次握手和四次挥手

3.3 路由器和交换机的区别？

3.4 ARP协议

3.5 DNS解析

3.6 HTTP和HTTPS

3.7 进程、线程和协程的区别

3.8 GIL锁

3.9 进程如何实现进程共享？

04 Scrapy框架：起始请求定制

4.1 start_urls;

4.2 什么是可迭代对象？

05 Scrapy框架：深度和优先级

5.1 深度

最开始是0

每次yield时候，会根据原来的请求中的depth + 1

通过配置DEPTH_LIMIT 深度控制

5.2 优先级

请求被下载的优先级——深度*配置 DEPTH_PRIORITY

配置DEPTH_PROORITY

06 Scrapy框架：内置代理

6.1 Scrapy内置代理；

6.2 Scrapy自定义代理；

6.3 学习到一定程度，就要读源码；

07 Scrapy框架：自定义代理

7.1 自定义代理池

7.2 商业产品，阿布云

08 Scrapy框架：解析器

8.1 xpath解析器

8.2 css解析器

转载于:https://www.cnblogs.com/tqtl911/p/9639142.html

你可能感兴趣的文章

iframe的父子层跨域用了百度的postMessage（）方法

Js apply方法与call方法详解附ES6新写法

linux php全能环境一键安装，小白福利！

Note(2): 一个JavaScript的贷款计算器

js原型和原型链

图片生成缩略图

基于SQL调用Com组件来发送邮件

关于Mysql select语句中拼接字符串的记录

动态规划例子与复杂度

安装webpack-dev-server后，npm run dev报错

[BZOJ4567][SCOI2016]背单词(Trie+贪心)

git回退到某个版本并提交

查看oracle数据库的连接数以及用户

简单几行js实现tab选项切换效果

关于更改滚动条样式

【数据结构】栈结构操作示例

中建项目环境迁移说明

三.野指针和free

VIO的Bundle Adjustment推导

activemq5.14+zookeeper3.4.9实现高可用

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-11-26 16:19:50 当前IP: 3.21.46.68 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我