分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - Python使用scrapy抓取网站sitemap信息的方法

Python使用scrapy抓取网站sitemap信息的方法

2020-06-01 10:25pythoner Python

这篇文章主要介绍了Python使用scrapy抓取网站sitemap信息的方法,涉及Python框架scrapy的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下：

				?

									import re

									from scrapy.spider import BaseSpider

									from scrapy import log

									from scrapy.utils.response import body_or_str

									from scrapy.http import Request

									from scrapy.selector import HtmlXPathSelector

									class SitemapSpider(BaseSpider):

									 name = "SitemapSpider"

									 start_urls = ["http://www.domain.com/sitemap.xml"]

									 def parse(self, response):

									  nodename = 'loc'

									  text = body_or_str(response)

									  r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)

									  for match in r.finditer(text):

									   url = match.group(2)

									   yield Request(url, callback=self.parse_page)

									 def parse_page(self, response):

									    hxs = HtmlXPathSelector(response)

									    #Mock Item

									  blah = Item()

									  #Do all your page parsing and selecting the elemtents you want

									    blash.divText = hxs.select('//div/text()').extract()[0]

									  yield blah

希望本文所述对大家的Python程序设计有所帮助。

延伸 · 阅读

精彩推荐

Python

python直接访问私有属性的简单方法

下面小编就为大家带来一篇python直接访问私有属性的简单方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧 ...

Python教程网5152020-09-03
Python

使用NumPy和pandas对CSV文件进行写操作的实例

今天小编就为大家分享一篇使用NumPy和pandas对CSV文件进行写操作的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

qq_2468356113602021-03-05
Python

在Windows系统上搭建Nginx+Python+MySQL环境的教程

这篇文章主要介绍了在Windows系统上搭建Nginx+Python+MySQL环境的教程,文中使用flup中间件及FastCGI方式连接,需要的朋友可以参考下 ...

没有终点的列车13232020-08-05
Python

Python的dict字典结构操作方法学习笔记

这篇文章主要介绍了Python的dict字典结构操作方法学习笔记本,字典的操作是Python入门学习中的基础知识,需要的朋友可以参考下...

Lizo_Is_Me4392020-08-22
Python

python 列表转为字典的两个小方法(小结)

这篇文章主要介绍了python 列表转为字典的两个小方法(小结)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的...

出泥的鱼16532021-07-25
Python

python 插入Null值数据到Postgresql的操作

这篇文章主要介绍了python 插入Null值数据到Postgresql的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

MichaelZhu6452021-09-16
Python

Python实现ping指定IP的示例

今天小编就为大家分享一篇Python实现ping指定IP的示例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

EpisodeOne12882021-02-28
Python

Python3以GitHub为例来实现模拟登录和爬取的实例讲解

在本篇内容里小编给大家分享的是关于Python3以GitHub为例来实现模拟登录和爬取的实例讲解，需要的朋友们可以参考下。 ...

爱喝马黛茶的安东尼5262020-07-31