分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - python采集百度百科的方法

python采集百度百科的方法

2020-07-14 16:40两把刷子 Python

这篇文章主要介绍了python采集百度百科的方法,涉及Python正则匹配及页面抓取的相关技巧,需要的朋友可以参考下

本文实例讲述了python 采集百度百科的方法。分享给大家供大家参考。具体如下：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

									#!/usr/bin/python

									# -*- coding: utf-8 -*-

									#encoding=utf-8 

									#Filename:get_baike.py

									import urllib2,re

									import sys

									def getHtml(url,time=10):

									 response = urllib2.urlopen(url,timeout=time)

									 html = response.read()

									 response.close()

									 return html

									def clearBlank(html):

									 if len(html) == 0 : return ''

									 html = re.sub('\r|\n|\t','',html)

									 while html.find(" ")!=-1 or html.find('&nbsp;')!=-1 :

									  html = html.replace('&nbsp;',' ').replace(' ',' ')

									 return html

									if __name__ == '__main__':

									  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)

									  html = html.decode('gb2312','replace').encode('utf-8') #转码

									  title_reg = r'<h1 class="title" id="[\d]+">(.*?)</h1>'

									  content_reg = r'<div class="card-summary-content">(.*?)</p>'

									  title = re.compile(title_reg).findall(html)

									  content = re.compile(content_reg).findall(html)

									  title[0] = re.sub(r'<[^>]*?>', '', title[0])

									  content[0] = re.sub(r'<[^>]*?>', '', content[0])

									  print title[0]

									  print '#######################'

									  print content[0]

希望本文所述对大家的Python程序设计有所帮助。

延伸 · 阅读

精彩推荐

Python

python实现k-means聚类算法

这篇文章主要为大家详细介绍了python实现k-means聚类算法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下...

chenge_j7422021-01-16
Python

python连接mysql数据库并读取数据的实现

这篇文章主要介绍了python连接mysql数据库并读取数据的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的...

Silenceyezi17822020-09-26
Python

Python实现的批量修改文件后缀名操作示例

这篇文章主要介绍了Python实现的批量修改文件后缀名操作,涉及Python目录文件的遍历、重命名等相关操作技巧,需要的朋友可以参考下...

zyf_andy7182021-04-26
Python

Python装饰器模式定义与用法分析

这篇文章主要介绍了Python装饰器模式定义与用法,结合实例形式分析了Python装饰器模式的具体定义、使用方法及相关操作技巧,需要的朋友可以参考下...

初行6362021-03-26
Python

python 获取微信好友列表的方法(微信web)

今天小编就为大家分享一篇python 获取微信好友列表的方法(微信web)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

BusyMonkey11382021-05-31
Python

tensorflow: variable的值与variable.read_value()的值区别详解

今天小编就为大家分享一篇tensorflow: variable的值与variable.read_value()的值区别详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

JNingWei10182021-03-23
Python

使用pygame模块编写贪吃蛇的实例讲解

下面小编就为大家分享一篇使用pygame模块编写贪吃蛇的实例讲解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

ykersimple10902021-01-12
Python

Python模拟脉冲星伪信号频率实例代码

这篇文章主要介绍了Python模拟脉冲星伪信号频率实例代码，具有一定借鉴价值,需要的朋友可以参考下...

Nicolas P. Rougier9322020-12-31