Python爬虫之爬取最新更新的小说网站_Python

一、引言

这个五一假期自驾回老家乡下，家里没装宽带，用手机热点方式访问网络。这次回去感觉4g信号没有以前好，通过百度查找小说最新更新并打开小说网站很慢，有时要打开好多个网页才能找到可以正常打开的最新更新。为了躲懒，老猿决定利用python爬虫知识，写个简单应用自己查找小说最新更新并访问最快的网站，花了点时间研究了一下相关报文，经过近一天时间研究和编写，终于搞定，下面就来介绍一下整个过程。

二、关于相关访问请求及应答报文

2.1、百度搜索请求

我们通过百度网页的搜索框进行搜索时，提交的url请求是这样的：

				?

									https://www.baidu.com/s?wd=搜索词&pn=10&rn=50

请求的url为https://www.baidu.com/s，带三个参数：

wd：搜索的关键词
pn：当前需要显示搜索结果记录在总搜索结果的序号，如总搜索有300条记录满足要求，现在要求显示第130条记录，则pn参数值设为130即可
rn：每页显示记录数，缺省为10条，可以自行设定，但如果设定超过50，则会强制显示为每页10条。

2.2、百度返回搜索结果

百度返回的搜索结果有多种方式确定，老猿认为如下方式最简单：
以搜索小说《青萍》为例来看其中的一个返回记录：

				?

									<h3 class="t"><a data-click="{

									            'f':'778317ea',

									            'f1':'9d73f1e4',

									            'f2':'4ca6de6b',

									            'f3':'54e5243f',

									            't':'1620130755',

									            'y':'fe7ff57a'}" 

									            href="http://www.baidu.com/link?url=9lla46b6hp69vjdlx6wogfbpos7bare8zv3osnj_vc2axuu0tz5bl7czlqnpobdw_belagaada_hfcjmtadpyq" rel="external nofollow"  target="_blank">

									            <em>青萍</em>最新章节,<em>青萍</em>免费阅读 - 大神小说网</a>

									            </h3>

整个搜索返回的结果在一个h3的标签内，返回的搜索结果对应url在a标签内，具体url由href来指定。这里返回的url实际上是一个百度重定向的地址，可以通过打开该url访问对应网站，并通过返回响应消息获取真正网站的url。

2.3、小说网站关于最新更新的展现及html报文格式

根据老猿分析，约占30%的小说网站关于最新更新章节的展现类似如下：

Python爬虫之爬取最新更新的小说网站

首先有类似“最新章节”或“最新更新”或“最近更新”等类似提示词，在该提示词后是显示最新章节的章节序号及章节名的一个链接，对应的报文类似如下：

				?

									<p>最新章节：<a href="/book/12/12938/358787.html" rel="external nofollow"  target="_blank">第729章 就是给你们看看的</a></p>

这个报文的特点是：

“最新章节”的文本信息与小说最新章节的链接在同一个父标签内。另外需要说明的是返回的章节url并不是绝对地址，而是小说网站的相对地址。

老猿对搜索小说查找最新章节都是基于以上格式的，因此实际上程序最终获取的小说网站只占了整个搜索结果的30%左右，不过对于看小说来说已经足够了。

三、实现思路及代码

3.1、根据url获取网站名

				?

									def gethostname(url):

									    httppost = url[10:]

									    hostname = url[:10]+httppost.split('/')[0]

									    return hostname

3.2、根据百度返回搜索结果地址打开网站获取小说信息

基于2.3部分介绍的小说网站返回内容，我们来根据百度返回搜索结果的url来打开对应小说网站，并计算从请求发起到响应返回的时间：

				?

									def getnoteinfo(url):

									    """

									    打开指定小说网页url获取最新章节信息

									    url:百度搜索结果指定的搜索匹配记录的url

									    返回该url对应的章节id、打开耗时、网站真正url、网站主机名、章节相对url、章节名

									    """

									    head = mkhead()

									    start = time.time_ns()

									    req = urllib.request.request(url=url, headers=head)

									    try:

									        resp = urllib.request.urlopen(req,timeout=2)

									        #根据响应头获取真正的网页url对应的网站名

									        hostname = gethostname(resp.url)

									        text = resp.read()

									        #网页编码有2种：utf-8和gbk

									        pagetext = text.decode('utf-8')

									    except unicodedecodeerror:

									        pagetext =  text.decode('gbk')

									    except exception as  e:

									        errinf = f"打开网站 {url} 失败，异常原因：\n{e}\n" + '\n' + traceback.format_exc() + '\n'

									        logpag(errinf, false)

									        return none

									    #最新章节的html报文类似： '<p>最新章节：<a href="/html/107018/122306672.html" rel="external nofollow" >第672章 天之关梁</a></p>'

									    end = time.time_ns()

									    soup = beautifulsoup(pagetext, 'lxml')

									    # 根据最新章节的提示信息搜索最新章节

									    result = soup.find_all(string=re.compile(r'最新更新[：:]|最新章节[：:]|最近更新[：:]|最新[：:]'))

									    found = false

									    for rec in result:

									        recp = rec.parent

									        pa = recp.a

									        matchs = re.match(r'(?:最新更新|最新章节|最近更新|最新)[：:]第(.+)章(.+)', recp.text)

									        if not matchs:return none

									        groups = matchs.groups()

									        if matchs and pa is not none:

									            found = true

									            chapter = toint(groups[0]) #章节序号

									            chaptername = groups[1] #章节名

									            chaperurl = pa.attrs['href'] #章节相对url

									            break

									    if not found:

									        return none

									    cost = (end - start) / 1000000  #网页打开耗时计算

									    return (chapter,cost,resp.url,hostname,chaperurl,chaptername)

注意：由于不同网站访问响应情况不一样，因此在打开网页时设定超时是很有必要的，这样可以避免访问缓慢的网站耽误整体访问时间。

3.3、获取小说网页绝对url地址

将返回信息中相对url和网站名结合拼凑网页的绝对url地址：

				?

									def getchapterurl(noteinf):

									    chapter, cost, url, hostname, chaperurl, chaptername = noteinf

									    if chaperurl.strip().startswith('http'):return chaperurl

									    elif chaperurl.strip().startswith('/'):return hostname.strip()+chaperurl.strip()

									    else:return hostname.strip()+'/'+chaperurl.strip()

3.4、计算排序权重

根据搜索小说网页访问的信息计算排序权重，确保最新章节排在最前，相同章节访问速度最快网站排在最前。

				?

									def noteweight(n):

									#入参n为小说信息元组: chapter, cost, url, hostname, chaperurl, chaptername

									    ch,co = n[:2]

									    w = ch * 100000 + min(99999, 100000 / co)

									    return w

3.5、进行百度搜索并解析搜索结果访问小说网站最新更新

根据搜索词在百度执行搜索，并取最新章节且访问速度最快的前5个网站url进行输出：

				?

									def bdsearchusingchrome(inputword,maxcount=150):

									    """

									    输出相关搜索结果中具有最新章节且访问速度最快的前5个网站url

									    :param word: 搜索关键词，如小说名、小说名+作者名等

									    :param maxcount: 最多处理的搜索记录数

									    :return: none

									    """

									    #百度请求url类似：https://www.baidu.com/s?wd=青萍&pn=10&rn=50

									    rn = 50 #每页50条记录

									    #构建请求头模拟本机谷歌浏览器访问百度网页

									    head = mkheadbyhostforchrome('baidu.com')

									    word =  urllib.parse.quote(inputword)

									    urlpagepre = 'https://www.baidu.com/s?wd='+word+'&rn=50&'

									    pagecount = int(0.999+maxcount/rn)

									    validnoteinf = []

									    seq = 0

									    logpag("开始执行搜索...")

									    for page in range(pagecount):

									        pn = rn*page

									        urlpage = urlpagepre+str(pn)

									        pagereq = urllib.request.request(url=urlpage, headers=head)

									        pageresp = urllib.request.urlopen(pagereq,timeout=2)

									        pagetext = pageresp.read().decode()

									        if pageresp.status == 200:

									            soup = beautifulsoup(pagetext,'lxml')

									            links = soup.select('h3.t a[href^="http://www.baidu.com/link?url="]')

									            for l in links:

									                noteinf = getnoteinfo(l.attrs['href'])

									                seq += 1

									                if noteinf is none:

									                    #print(seq,'、',l.attrs['href'],none)

									                    logpag(f"{seq}、{l.attrs['href']}:查找最新章节失败，忽略",true)

									                else:

									                    logpag(f"{seq}、返回小说信息： {noteinf}",true)

									                    #chapter,cost,url,hostname,chaperurl,chaptername = noteinf

									                    validnoteinf.append(noteinf)

									    validnoteinf.sort(key=noteweight,reverse=true)

									    print(f"小说： {inputword} 最新更新访问最快的5个网站是：")

									    for l in validnoteinf[:5]:#输出相关搜索结果中具有最新章节且访问速度最快的前5个网站url

									        print(f"{validnoteinf.index(l)+1}、第{l[0]}章 {l[-1]}  {getchapterurl(l)}  ，网页打开耗时 {l[1]} 毫秒")

									    input("按回车键退出！")

四、搜索案例

以搜索月关大大的青萍作为案例，执行搜索的语句为：

				?

									bdsearchusingchrome('青萍月关',150)

执行结果：

小说：青萍月关最新更新访问最快的5个网站是：
1、第688章东边日出西边雨 http://www.huaxiaci.com/41620/37631250.html ，网页打开耗时 262.0 毫秒
2、第688章东边日出西边雨 http://www.huaxiaci.com/41620/37631250.html ，网页打开耗时 278.0 毫秒
3、第688章东边日出西边雨 http://www.huaxiaci.com/41620/37631250.html ，网页打开耗时 345.5 毫秒
4、第688章东边日出西边雨 https://www.24kwx.com/book/9/9202/8889236.html ，网页打开耗时 774.0 毫秒
5、第688章东边日出西边雨 https://www.27kk.net/9526/2658932.html ，网页打开耗时 800.5 毫秒
按回车键退出！