golang抓取网页并分析页面包含的链接方法_Golang

golang抓取网页并分析页面包含的链接方法

2020-05-27 10:29仰天笑 Golang

今天小编就为大家分享一篇golang抓取网页并分析页面包含的链接方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

1. 下载非标准的包,"golang.org/x/net/html"

2. 先安装git，使用git命令下载

				?

									git clone https://github.com/golang/net

3. 将net包，放到GOROOT路径下

比如：

我的是：GOROOT = E:\go\

所以最终目录是：E:\go\src\golang.org\x\net

注意：如果没有golang.org和x文件夹，就创建

4. 创建fetch目录，在其下创建main.go文件，main.go文件代码内容如下：

				?

									package main

									import (

									 "os"

									 "net/http"

									 "fmt"

									 "io/ioutil"

									)

									func main() {

									 for _, url := range os.Args[1:] {

									 resp, err := http.Get(url)

									 if err != nil {

									  fmt.Fprintf(os.Stderr, "fetch: %v\n", err)

									 }

									 b, err := ioutil.ReadAll(resp.Body)

									 resp.Body.Close()

									 if err != nil {

									  fmt.Fprintf(os.Stderr, "fetch: reading %s: %v\n", url, err)

									  os.Exit(1)

									 }

									 fmt.Printf("%s",b)

									 }

									}

5. 编译fetch

				?

									go build test.com\justin\demo\fetch

注意：test.com\justin\demo\ 是我的项目路径，具体编译根据自己项目路径编译。

6. 执行fetch.exe 文件

fetch.exe https://www.qq.com

注意：https://www.qq.com是要爬的网址，配置正确的话，会打印出网址的HTML内容。如果没有，请检查以上步骤是否正确。

7. 网页已经抓取了，那么剩下就分析页面包含的链接了，创建findlinks目录，在其下创建main.go文件，main.go文件代码内容如下：

				?

									package main

									import (

									 "os"

									 "fmt"

									 "golang.org/x/net/html"

									)

									func main() {

									 doc, err := html.Parse(os.Stdin)

									 if err != nil {

									 fmt.Fprint(os.Stderr, "findlinks: %v\n", err)

									 os.Exit(1)

									 }

									 for _, link := range visit(nil, doc) {

									 fmt.Println(link)

									 }

									}

									func visit(links []string, n *html.Node) []string {

									 if n.Type == html.ElementNode && n.Data == "a" {

									 for _, a := range n.Attr {

									  if a.Key == "href" {

									  links = append(links, a.Val)

									  }

									 }

									 }

									 for c := n.FirstChild; c != nil; c = c.NextSibling {

									 links = visit(links, c)

									 }

									 return links

									}

8. 编译findlinks

				?

									go build test.com\justin\demo\findlinks

注意：test.com\justin\demo\ 是我的项目路径，具体编译根据自己项目路径编译。

9. 执行findlinks.exe 文件

				?

									fetch.exe https://www.qq.com | findlinks.exe

> 10. 执行后结果：获取到各种不同形式的超链接

以上这篇golang抓取网页并分析页面包含的链接方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持服务器之家。

原文链接：https://blog.csdn.net/LAMP_94/article/details/81260912

golang抓取网页并分析页面包含的链接方法

延伸 · 阅读

golang的httpserver优雅重启方法详解

golang如何使用struct的tag属性的详细介绍

Golang中Bit数组的实现方式

golang 通过ssh代理连接mysql的操作

Golang通脉之数据类型详情

golang json.Marshal 特殊html字符被转义的解决方法

go日志系统logrus显示文件和行号的操作

go语言制作端口扫描器

图文详解go语言反射实现原理

go语言开发环境安装及第一个go程序(推荐)

在Visual Studio Code中配置GO开发环境的详细教程

Win7环境下搭建Go开发环境(基于VSCode编辑器)

Go语言使用HTTP包创建WEB服务器的方法

Go语言eclipse环境搭建图文教程

Go语言实现简单的一个静态WEB服务器

Go语言实现的一个简单Web服务器

Golang 内存模型详解（一）