分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

香港云服务器

服务器之家 - 编程语言 - 编程技术 - 如何替换URL中的Query字段？

如何替换URL中的Query字段？

2021-08-31 22:00未闻Codekingname 编程技术

由于ParseResult对象的.query属性是只读属性，不能覆盖，因此我们需要调用一个内部方法._replace把新的.query字段替换上去，生成新的 ParseResult对象。最后再把它转回网址。

如何替换URL中的Query字段？

在我们写爬虫的时候，可能会需要在爬虫里面基于当前url生成一个新的url。例如下面这段伪代码：

import re
current_url = 'https://www.kingname.info/archives/page/2/'
current_page = re.search('/(\d+)', current_url).group(1)
next_page = int(current_page) + 1
next_url = re.sub('\d+', str(next_page), current_url)
make_request(next_url)

运行效果如下图所示：

如何替换URL中的Query字段？

但有时候，翻页参数不一定是数字。例如有些网站，访问一个URL：https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD

当你访问这个url的时候，它返回的是一个JSON字符串，并且这个JSON里面，有如下字段：

...
"paging": {
"cursors": {
"before": "MTA3NDU0NDExNDEzNTgz",
"after": "MTE4OTc5MjU0NDQ4NTkwMgZDZD"
},
}
...

这种情况多见于信息流网站。它只能无限下滑看下一页，不能直接通过页数跳页。每次请求的时候返回下一页的参数after。当要访问下一页的时候，用这个参数替换当前url中的after=后面的参数。

这样一来，替换url中的参数就并不是一件简单的事情了。因为网址可能有4种情况：

第一页，没有after参数：https://xxx.com/articlelist?category=technology
第一页，有after参数名但没有值：https://xxx.com/articlelist?category=technology&after=
后续页面，after参数值后面没有内容： https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD
后续页面，aster参数值后面有内容：https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc

大家可以试一试，如果用正则表达式，怎么覆盖这4种情况，生成下一页的网址。

实际上，我们不需要使用正则表达式。Python自带的urllib模块已经提供了解决这个问题的方案了。我们先来看一段代码：

from urllib.parse import urlparse, urlunparse, parse_qs, urlencode
def replace_field(url, name, value):
parse = urlparse(url)
query = parse.query
query_pair = parse_qs(query)
query_pair[name] = value
new_query = urlencode(query_pair, doseq=True)
new_parse = parse._replace(query=new_query)
next_page = urlunparse(new_parse)
return next_page
url_list = [
'https://xxx.com/articlelist?category=technology',
'https://xxx.com/articlelist?category=technology&after=',
'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD',
'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc'
]
for url in url_list:
next_page = replace_field(url, 'after', '0000000')
print(next_page)

运行效果如下图所示：

如何替换URL中的Query字段？

从图中可以看到，这4种情况，都可以被我们成功添加下一页的参数after= 0000000。不用再去考虑正则表达式怎么适配所有情况。

其中urlparse 和urlunparse 是一对相反函数，前者把网址转成 ParseResult 对象，后者把ParseResult对象转回网址字符串。

如何替换URL中的Query字段？

ParseResult 对象的.query 属性，是一个字符串，也就是网址中，问号后面的内容，格式如下：

如何替换URL中的Query字段？

parse_qs与urlencode也是一对相反函数。其中前者把 .query输出的字符串转成字典，而后者把字段转成.query形式的字符串：

如何替换URL中的Query字段？

当使用parse_qs把 query转成字典以后，就可以修改参数的值，然后再重新转回去。

由于ParseResult对象的.query属性是只读属性，不能覆盖，因此我们需要调用一个内部方法._replace把新的.query字段替换上去，生成新的 ParseResult对象。最后再把它转回网址。

以上，就是今天我们介绍的，如何使用urllib自带的函数替换网址中的字段。

原文链接：https://mp.weixin.qq.com/s/ZwA9ZDBAuJopJXvCZIlxCw

延伸 · 阅读

2022-03-07URL @PathVariable 变量的匹配原理分析
2022-03-06MySQL怎么给字符串字段加索引
2022-03-03SQL Server查询某个字段在哪些表中存在
2022-03-02详解Python实现URL监测与即时推送
2022-02-28C#中sqlDataRead 的三种方式遍历读取各个字段数值的
2022-02-28C#中字段、属性、只读、构造函数赋值、反射赋值

精彩推荐

编程技术

解决Fiddler在win7系统下的安全证书问题

今天小编就为大家分享一篇关于解决Fiddler在win7系统下的安全证书问题，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起...

回忆不说话5062020-08-18
编程技术

TIOBE4月编程语言排行榜出炉！涨幅最大的语言竟然是它？

TIOBE 近日发布的4 月编程语言排行榜。前十榜单中，C、Java、Python 仍分别占据前三位。涨幅最大的语言是Python。...

QIKU6672021-04-09
编程技术

Python“王者”地位不保！Julia和Swift后来居上

在过去的十年里，Python 一直统治着数据科学和机器学习，但是 Julia 和 Swift 后来居上，正准备超越Python。...

今日头条4822020-09-22
编程技术

IT工程师都需要掌握的容器技术之DockerCompose

今天我们继续来学习Docker技术之Docker Compose，本篇文章将是我们容器技术系列的最后一篇文章，读过我们容器技术全系列文章的小伙伴肯定有疑问，整个系...

今日头条6242020-11-25
编程技术

如何成为专业的恶意软件研究员

当今社会，不管任何一门技术，或者你从事任何一种职业，都需要掌握相关的知识，现代的技术其实就是以前称的“手艺”，大多数的手艺的学习和入门其...

安全分析与研究13092021-02-21
编程技术

在地址栏里显示logo的实现方法

在地址栏里显示logo，其实大家可以看一些网站的头部里面，下面的方法讲的更仔细。...

编程技术网4162020-07-11
编程技术

面试官：说说你对堆的理解？如何实现？应用场景？

在计算机科学中，图是一种抽象的数据类型，在图中的数据元素通常称为结点，V是所有顶点的集合，E是所有边的集合。...

JS每日一题9532021-09-29
编程技术

拿高薪的程序员，都学习了什么编程语言？

人的一生从来不是从出生那一刻就注定的，总是会因为我们的选择不断的发生改变，小到一件衣服的色彩，大到未来人生的规划！选错一件衣服可以重来，...

职坐标在线11932021-04-08