scrapy实践之翻页爬取的实现_Python

scrapy实践之翻页爬取的实现

2021-08-21 00:54生信修炼手册 Python

这篇文章主要介绍了scrapy实践之翻页爬取的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

安装

Scrapy的安装很简单，官方文档也有详细的说明 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html 。这里不详细说明了。

在scrapy框架中，spider具有以下几个功能

1. 定义初始爬取的url

2. 定义爬取的行为，是否跟进链接

3. 从网页中提取结构化数据

所谓的跟进链接，其实就是自动爬取该页的所有链接，然后顺着对应的链接延伸开来不断爬取，这样只需要提供一个网站首页，理论上就可以实现网站全部页面的爬取，实现点到面的功能。

如果自己来开发，不仅需要在算法层面，考虑是使用深度优先还是广度优先，还需要处理好提取的url的限制条件等细节工作。在scrapy中，开发过程被大大简化了，我们只需要定义以下几个关键部分的代码，就可以实现翻页效果。

1. Spider

核心思想是在parse方法中，返回新的Requests请求，代码如下

				?

									import scrapy

									from hello_world.items import HelloWorldItem

									class MirSpider(scrapy.Spider):

									  name = "MirSpider"

									  start_urls = ["http://mirtarbase.cuhk.edu.cn/php/search.php?opt=species&org=bta&sort=id&order=asc&page=1"]

									  def parse(self, response):

									    domain = 'http://mirtarbase.cuhk.edu.cn'

									    for row in response.xpath('//table/tr'):

									      item = HelloWorldItem()

									      res = []

									      for col in (row.xpath('td/text()')):

									        res.append(col.extract())

									      if res[0] != 'Bos taurus':

									        continue

									      item['species'] = res[0]

									      item['miRNA'] = res[2]

									      item['target'] = res[3]

									      item['total'] = res[4]

									      item['papers'] = res[5]

									      yield item

									    for url in response.xpath('//a/@href').extract():

									      if 'page' in url:

									        url = domain + url

									        yield scrapy.Request(url, callback = self.parse, dont_filter = False)

关键代码是最后几行的for循环，在start_urls中，我们只提供了一个初识的url，在parse方法中，除了常规的返回结构性数据item外，我们还返回了新的requests请求，首先提取页面上所有的url, 并对url的链接进行了限制，对需要爬取的url链接以Request的方法进行返回，注意dont_filter的设置，当设置为False时，会调用scrapy默认的url去重机制，这样不会重复下载。

2. Item Pipeline

对于下载的item, 有些会出现重复的现象，此时可以在pipelines.py中，对item进行操作，实现item去重的代码如下

				?

									from itemadapter import ItemAdapter

									class HelloWorldPipeline:

									  def __init__(self):

									    self.link_set = set()

									  def process_item(self, item, spider):

									    link = item['miRNA'] + item['target']

									    if link in self.link_set:

									      raise DropItem(item)

									    self.link_set.add(link) 

									    return item

在process_item方法中，通过一个set对象来达到去重的效果。需要注意，默认pipelines是没有开启的，编写完代码之后，需要在settings.py中进行配置，开启对应的pipeline, 内容如下

				?

									ITEM_PIPELINES = {

									  'hello_world.pipelines.HelloWorldPipeline': 300,

									}

对于标准的多页表格数据，采用上述的代码可以轻松实现翻页效果，非常的方便。

到此这篇关于scrapy实践之翻页爬取的实现的文章就介绍到这了,更多相关scrapy 翻页爬取内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家！

原文链接：https://blog.csdn.net/weixin_43569478/article/details/109542069

scrapy实践之翻页爬取的实现

安装

在scrapy框架中，spider具有以下几个功能

1. Spider

2. Item Pipeline

延伸 · 阅读

python 插入Null值数据到Postgresql的操作

Python3以GitHub为例来实现模拟登录和爬取的实例讲解

Python实现ping指定IP的示例

在Windows系统上搭建Nginx+Python+MySQL环境的教程

Python的dict字典结构操作方法学习笔记

python直接访问私有属性的简单方法

python 列表转为字典的两个小方法(小结)

使用NumPy和pandas对CSV文件进行写操作的实例

PyCharm设置SSH远程调试的方法

Python安装图文教程 Pycharm安装教程

python是什么意思？python有什么用？

使用Python抓取模板之家的CSS模板

Python 列表(List)操作方法详解