分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - python爬虫之scrapy框架详解

python爬虫之scrapy框架详解

2022-03-07 00:11可小v. Python

这篇文章主要为大家介绍了python爬虫之scrapy框架，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助

1.在pycharm下安装scrapy函数库
2.将安装好scrapy函数库下的路径配置到系统path的环境变量中
3.打开cmd终端输入：scrapy.exe检查是否安装成功
4.创建一个项目：scrapy startproject 项目名字
5.cd进入该目录下，创建一个spider：scrapy genspider 项目名字 网址
6.编辑settings.py文件中的USER_AGENT选项为正常的浏览器头部
7.执行这个spider：scrapy crawl 项目名字
8.如果遇到因pip版本太低导致安装不了scarpy函数库，可以先在cmd窗口输入py -m pip install --upgrade pip升级命令（前提是你的python环境下得有pip，可通过输入pip命令查看是否已安装，如未安装得去官网下载并解压至相应路径）

代码示例命令截图:

python爬虫之scrapy框架详解

项目文件截图：

python爬虫之scrapy框架详解

settings.py文件截图：（需要修改爬取网站的USER_AGENT）

python爬虫之scrapy框架详解

scrapy运行工作流程图:

Spiders(爬虫):它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)

Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader(下载器)：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理

ItemPipeline(管道):它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间

通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）
python爬虫之scrapy框架详解

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注服务器之家的更多内容!

原文链接：https://blog.csdn.net/qq_62037643/article/details/121502999

延伸 · 阅读

2022-03-10浅谈Python flask框架
2022-03-02用数据说话，序列化框架测评报告
2022-03-02Java Apache Shiro安全框架快速开发详解流程
2022-03-01如何手撸一个较为完整的RPC框架？
2022-03-01C++轻量级界面开发框架ImGUI介绍小结
2022-03-01python爬虫框架scrapy代理中间件掌握学习教程

精彩推荐

Python

python 插入Null值数据到Postgresql的操作

这篇文章主要介绍了python 插入Null值数据到Postgresql的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

MichaelZhu6452021-09-16
Python

Python3以GitHub为例来实现模拟登录和爬取的实例讲解

在本篇内容里小编给大家分享的是关于Python3以GitHub为例来实现模拟登录和爬取的实例讲解，需要的朋友们可以参考下。 ...

爱喝马黛茶的安东尼5262020-07-31
Python

python 列表转为字典的两个小方法(小结)

这篇文章主要介绍了python 列表转为字典的两个小方法(小结)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的...

出泥的鱼16542021-07-25
Python

在Windows系统上搭建Nginx+Python+MySQL环境的教程

这篇文章主要介绍了在Windows系统上搭建Nginx+Python+MySQL环境的教程,文中使用flup中间件及FastCGI方式连接,需要的朋友可以参考下 ...

没有终点的列车13242020-08-05
Python

Python的dict字典结构操作方法学习笔记

这篇文章主要介绍了Python的dict字典结构操作方法学习笔记本,字典的操作是Python入门学习中的基础知识,需要的朋友可以参考下...

Lizo_Is_Me4402020-08-22
Python

使用NumPy和pandas对CSV文件进行写操作的实例

今天小编就为大家分享一篇使用NumPy和pandas对CSV文件进行写操作的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

qq_2468356113602021-03-05
Python

Python实现ping指定IP的示例

今天小编就为大家分享一篇Python实现ping指定IP的示例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

EpisodeOne12902021-02-28
Python

python直接访问私有属性的简单方法

下面小编就为大家带来一篇python直接访问私有属性的简单方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧 ...

Python教程网5152020-09-03