Golang爬虫及正则表达式的实现示例_Golang

字符

. ——匹配任意字符 e.g: abc. 结果: abcd,abcx,abc9;
[] ——匹配括号中任意一个字符 e.g: [abc]d 结果：ad,cd,1d；
- ——[-]中表示范围 e.g: [A-Za-z0-9]；
^ ——[^]中表示除括号中的任意字符 e.g：[^xy]a 结果：aa,da,不能为xa,ya；

数量限定

？ ——前面单元匹配0或1次；
+ ——前面单元匹配1或多次；
* ——前面单元匹配0或多次；
{,} ——显示个数上下线；e.g ： ip地址——[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}；

其他

\ ——转义字符;
| ——条件或;
() ——组成单元如果字符串本身有括号"[(] aaa. [)]" ;

方法

				?

									//参数正则字符串，返回值*Regexp

									str := regexp.MustCompile(string) 

									//参数要查找的数据，查找次数-1为全局，返回值二维数组，查找出的字符串+正则字符串

									var result [][]string = str.FindAllStringSubmatch(data, -1)

爬虫

爬取博客园所有文章阅读量，评论，推荐；

				?

									package main

									import (

									 "fmt"

									 "io"

									 "net/http"

									 "regexp"

									 "strconv"

									)

									var readCount int = 0

									var commentCount int = 0

									var diggCount int = 0

									//http读取网页数据写入result返回

									func HttpGet(url string) (result string, err error) {

									 resp, err1 := http.Get(url)

									 if err1 != nil {

									  err = err1

									  return

									 }

									 defer resp.Body.Close()

									 buf := make([]byte, 4096)

									 for {

									  n, err2 := resp.Body.Read(buf)

									  //fmt.Println(url)

									  if n == 0 {

									   break

									  }

									  if err2 != nil && err2 != io.EOF {

									   err = err2

									   return

									  }

									  result += string(buf[:n])

									 }

									 return result, err

									}

									//横向纵向爬取文章标题数据，并累计数值

									func SpiderPageDB(index int, page chan int) {

									 url := "https://www.cnblogs.com/littleperilla/default.html?page=" + strconv.Itoa(index)

									 result, err := HttpGet(url)

									 if err != nil {

									  fmt.Println("HttpGet err:", err)

									  return

									 }

									 str := regexp.MustCompile("post-view-count\">阅读[(](?s:(.*?))[)]</span>")

									 alls := str.FindAllStringSubmatch(result, -1)

									 for _, j := range alls {

									  temp, err := strconv.Atoi(j[1])

									  if err != nil {

									   fmt.Println("string2int err:", err)

									  }

									  readCount += temp

									 }

									 str = regexp.MustCompile("post-comment-count\">评论[(](?s:(.*?))[)]</span>")

									 alls = str.FindAllStringSubmatch(result, -1)

									 for _, j := range alls {

									  temp, err := strconv.Atoi(j[1])

									  if err != nil {

									   fmt.Println("string2int err:", err)

									  }

									  commentCount += temp

									 }

									 str = regexp.MustCompile("post-digg-count\">推荐[(](?s:(.*?))[)]</span>")

									 alls = str.FindAllStringSubmatch(result, -1)

									 for _, j := range alls {

									  temp, err := strconv.Atoi(j[1])

									  if err != nil {

									   fmt.Println("string2int err:", err)

									  }

									  diggCount += temp

									 }

									 page <- index

									}

									//主要工作方法

									func working(start, end int) {

									 fmt.Printf("正在从%d到%d爬取中...\n", start, end)

									 //channel通知主线程是否所有go都结束

									 page := make(chan int)

									 //多线程go程同时爬取

									 for i := start; i <= end; i++ {

									  go SpiderPageDB(i, page)

									 }

									 for i := start; i <= end; i++ {

									  fmt.Printf("拉取到%d页\n", <-page)

									 }

									}

									//入口函数

									func main() {

									 //输入爬取的起始页

									 var start, end int

									 fmt.Print("startPos:")

									 fmt.Scan(&start)

									 fmt.Print("endPos:")

									 fmt.Scan(&end)

									 working(start, end)

									 fmt.Println("阅读:", readCount)

									 fmt.Println("评论:", commentCount)

									 fmt.Println("推荐:", diggCount)

									}

Golang爬虫及正则表达式的实现示例

补充：正则表达式加golang爬虫爬取经典案例豆瓣top250

100

101

102

103

									package main

									import (

									    "fmt"

									    "io"

									    "net/http"

									    "os"

									    "regexp"

									    "strconv"

									)

									func savToFile(index int, filmName, filmScore [][]string) {

									    f, err := os.Create("第" + strconv.Itoa(index) + "页.txt")

									    if err != nil {

									        fmt.Println("os create err", err)

									        return

									    }

									    defer f.Close()

									    // 查出有多少条

									    n := len(filmName)

									    // 先写抬头 名称     评分

									    f.WriteString("电影名称" + "\t\t\t" + "评分" + "\n")

									    for i := 0; i < n; i++ {

									        f.WriteString(filmName[i][1] + "\t\t\t" + filmScore[i][1] + "\n")

									    }

									}

									func main() {

									    var start, end int

									    fmt.Print("请输入要爬取的起始页")

									    fmt.Scan(&start)

									    fmt.Print("请输入要爬取的终止页")

									    fmt.Scan(&end)

									    working(start, end)

									}

									func working(start int, end int) {

									    fmt.Printf("正在爬取%d到%d页", start, end)

									    for i := start; i <= end; i++ {

									        SpiderPage(i)

									    }

									}

									// 爬取一个豆瓣页面数据信息保存到文档

									func SpiderPage(index int) {

									    // 获取url

									    url := "https://movie.douban.com/top250?start=" + strconv.Itoa((index-1)*25) + "&filter="

									    // 爬取url对应页面

									    result, err := HttpGet(url)

									    if err != nil {

									        fmt.Println("httpget err", err)

									        return

									    }

									    //fmt.Println("result=", result)

									    // 解析，编译正则表达式  ---电影名称

									    ret := regexp.MustCompile(`<img width="100" id="codetool">



	到此这篇关于Golang爬虫及正则表达式的实现示例的文章就介绍到这了,更多相关Golang爬虫及正则表达式 内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家！

	原文链接：https://www.cnblogs.com/littleperilla/p/15721635.html

			
					    
			
			
			
				
			
		
		
			
				 
				爬虫
				
				正则表达式
				
				golang
				
			
			
				
			
		
		
			
				延伸 · 阅读
			
			
				2022-03-11Python爬虫实战之爬取某宝男装信息
2022-03-10Python全栈之正则表达式
2022-03-07Python 超简洁且详细爬取西瓜视频案例
2022-03-06CentOS中的正则表达式
2022-03-06详解Android过滤emoji表情正则表达式
2022-03-05linux系统用户管理与grep正则表达式示例教程

			
		
		
		
		
			
				
			
		
		
			
				精彩推荐
			
		
		
			
				
					
				
				Golang
				
					Golang中Bit数组的实现方式
					
						这篇文章主要介绍了Golang中Bit数组的实现方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...
					
					
						天易独尊11682021-06-09
					
				
				
Golang
				
					go语言制作端口扫描器
					
						本文给大家分享的是使用go语言编写的TCP端口扫描器，可以选择IP范围，扫描的端口，以及多线程，有需要的小伙伴可以参考下。
...
					
					
						脚本之家3642020-04-25
					
				
				
Golang
				
					go日志系统logrus显示文件和行号的操作
					
						这篇文章主要介绍了go日志系统logrus显示文件和行号的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...
					
					
						SmallQinYan12302021-02-02
					
				
				
Golang
				
					golang json.Marshal 特殊html字符被转义的解决方法
					
						今天小编就为大家分享一篇golang json.Marshal 特殊html字符被转义的解决方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
...
					
					
						李浩的life12792020-05-27
					
				
				
Golang
				
					golang的httpserver优雅重启方法详解
					
						这篇文章主要给大家介绍了关于golang的httpserver优雅重启的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，...
					
					
						helight2992020-05-14
					
				
				
Golang
				
					golang如何使用struct的tag属性的详细介绍
					
						这篇文章主要介绍了golang如何使用struct的tag属性的详细介绍，从例子说起，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看...
					
					
						Go语言中文网11352020-05-21
					
				
				
Golang
				
					Golang通脉之数据类型详情
					
						这篇文章主要介绍了Golang通脉之数据类型，在编程语言中标识符就是定义的具有某种意义的词，比如变量名、常量名、函数名等等，Go语言中标识符允许由...
					
					
						羌4272021-11-24
					
				
				
Golang
				
					golang 通过ssh代理连接mysql的操作
					
						这篇文章主要介绍了golang 通过ssh代理连接mysql的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...
					
					
						a165861639710342021-03-08
					
				
				

			
		
	
	
最近更新
聊聊一个用 Go 实现的有限状态机
Go语言错误处理异常捕获+异常抛出
Go语言单元测试超详细解析
Go语言线程安全之互斥锁与读写锁
Go语言中的通道channel详情
编辑推荐
Golang HTTP 服务平滑重启及升级的思路
 2图文详解go语言反射实现原理
2020-06-04
 3go语言开发环境安装及第一个go程序(推荐)
2020-06-03
4在Visual Studio Code中配置GO开发环境的详细教程
2020-05-05
5Win7环境下搭建Go开发环境(基于VSCode编辑器)
2020-05-05
6Go语言使用HTTP包创建WEB服务器的方法
2020-04-30
7Go语言eclipse环境搭建图文教程
2020-04-30
8Go语言实现简单的一个静态WEB服务器
2020-04-10
9Go语言实现的一个简单Web服务器
2020-04-09
10Golang 内存模型详解（一）
2019-11-28
阅读排行
1 Goland激活码破解永久版及安装详细教程(亲测
2 在 Golang 中如何快速判断字符串是否在一个数
3 Golang是什么意思？Golang有什么用？
 4 使用go语言解析xml的实现方法(必看篇)
5 Go语言string，int，int64 ,float之间类型转换方法
6 Go语言获取数组长度的方法
7 详解Golang开启http服务的三种方式
8 goland2020.2.x永久激活码破解详细教程亲测可用
9 go浮点数转字符串保留小数点后N位的完美解决
10 GO接收GET/POST参数及发送GET/POST请求的实例详解
热门标签
 gosublime 　  指针类型 　  new() 　  make() 　  并发模型 　  切片 　  静态WEB服务器 　  端口扫描器 　  Go语言入门教程 　  基础语 　  Slices 　  Maps 　  Golang编程 　  panic 　  接受者类型 　  嵌入类型 　  Slice 　  Golang教程 　  Golang项目 　  内存模型 　  开发环境搭建 　  大小端判断 　  代码组织结构 　  复合类型 　  GOPATH 　  工作目录 　  实例 　  struct类型 　  并发技术 　  buffered 　 




© 2019-2023 脚本之家 | 服务器之家(www.zzvips.com)旗下站点 版权所有关于我们联系我们版权申明网站地图