Java爬虫实战抓取一个网站上的全部链接_JAVA教程

前言：写这篇文章之前，主要是我看了几篇类似的爬虫写法，有的是用的队列来写，感觉不是很直观，还有的只有一个请求然后进行页面解析，根本就没有自动爬起来这也叫爬虫？因此我结合自己的思路写了一下简单的爬虫。

一算法简介

程序在思路上采用了广度优先算法，对未遍历过的链接逐次发起GET请求，然后对返回来的页面用正则表达式进行解析，取出其中未被发现的新链接，加入集合中，待下一次循环时遍历。

具体实现上使用了Map<String, Boolean>，键值对分别是链接和是否被遍历标志。程序中使用了两个Map集合，分别是：oldMap和newMap，初始的链接在oldMap中，然后对oldMap里面的标志为false的链接发起请求，解析页面，用正则取出<a>标签下的链接，如果这个链接未在oldMap和newMap中，则说明这是一条新的链接，同时要是这条链接是我们需要获取的目标网站的链接的话，我们就将这条链接放入newMap中，一直解析下去，等这个页面解析完成，把oldMap中当前页面的那条链接的值设为true，表示已经遍历过了。

最后是当整个oldMap未遍历过的链接都遍历结束后，如果发现newMap不为空，则说明这一次循环有新的链接产生，因此将这些新的链接加入oldMap中，继续递归遍历，反之则说明这次循环没有产生新的链接，继续循环下去已经不能产生新链接了，因为任务结束，返回链接集合oldMap

二程序实现

上面相关思路已经说得很清楚了，并且代码中关键地方有注释，因此这里就不多说了，代码如下：

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

									package action;

									import java.io.BufferedReader;

									import java.io.IOException;

									import java.io.InputStream;

									import java.io.InputStreamReader;

									import java.net.HttpURLConnection;

									import java.net.MalformedURLException;

									import java.net.URL;

									import java.util.LinkedHashMap;

									import java.util.Map;

									import java.util.regex.Matcher;

									import java.util.regex.Pattern;

									public class WebCrawlerDemo {

									 public static void main(String[] args) {

									    WebCrawlerDemo webCrawlerDemo = new WebCrawlerDemo();

									    webCrawlerDemo.myPrint("http://www.zifangsky.cn");

									  }

									  public void myPrint(String baseUrl) {

									    Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存储链接-是否被遍历

									                                      // 键值对

									    String oldLinkHost = ""; //host

									    Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); //比如：http://www.zifangsky.cn

									    Matcher m = p.matcher(baseUrl);

									    if (m.find()) {

									      oldLinkHost = m.group();

									    }

									    oldMap.put(baseUrl, false);

									    oldMap = crawlLinks(oldLinkHost, oldMap);

									    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {

									      System.out.println("链接：" + mapping.getKey());

									    }

									  }

									  /**

									   * 抓取一个网站所有可以抓取的网页链接，在思路上使用了广度优先算法

									   * 对未遍历过的新链接不断发起GET请求，一直到遍历完整个集合都没能发现新的链接

									   * 则表示不能发现新的链接了，任务结束

									   * 

									   * @param oldLinkHost 域名，如：http://www.zifangsky.cn

									   * @param oldMap 待遍历的链接集合

									   * 

									   * @return 返回所有抓取到的链接集合

									   * */

									  private Map<String, Boolean> crawlLinks(String oldLinkHost,

									      Map<String, Boolean> oldMap) {

									    Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>();

									    String oldLink = "";

									    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {

									      System.out.println("link:" + mapping.getKey() + "--------check:"

									          + mapping.getValue());

									      // 如果没有被遍历过

									      if (!mapping.getValue()) {

									        oldLink = mapping.getKey();

									        // 发起GET请求

									        try {

									          URL url = new URL(oldLink);

									          HttpURLConnection connection = (HttpURLConnection) url

									              .openConnection();

									          connection.setRequestMethod("GET");

									          connection.setConnectTimeout(2000);

									          connection.setReadTimeout(2000);

									          if (connection.getResponseCode() == 200) {

									            InputStream inputStream = connection.getInputStream();

									            BufferedReader reader = new BufferedReader(

									                new InputStreamReader(inputStream, "UTF-8"));

									            String line = "";

									            Pattern pattern = Pattern

									                .compile("<a.*?href=[\"']?((https?://)?/?[^\"']+)[\"']?.*?>(.+)</a>");

									            Matcher matcher = null;

									            while ((line = reader.readLine()) != null) {

									              matcher = pattern.matcher(line);

									              if (matcher.find()) {

									                String newLink = matcher.group(1).trim(); // 链接

									                // String id="codetool">



	三 最后的测试效果

	

	PS：其实用递归这种方式不是太好，因为要是网站页面比较多的话，程序运行时间长了对内存的消耗会非常大

	感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

			
			
				 
			
		
		
			
				 
				Java
				
				网络爬虫
				
			
			
				
			
		
		
			
				延伸 · 阅读
			
			
				 2020-06-24Java爬虫抓取视频网站下载链接
2020-06-24JAVA 数据结构链表操作循环链表
2020-06-24Java 数据结构链表操作实现代码
2020-06-24java实现zip,gzip,7z,zlib格式的压缩打包
2020-06-24Java常见内存溢出异常分析与解决
2020-06-24用java WebSocket做一个聊天室

			
		
		
		
		
			
				
			
		
		
			
				精彩推荐
			
		
		
			
				
					
				
				 JAVA教程
				
					深入解析Java编程中方法的参数传递
					
						 这篇文章主要介绍了Java编程中方法的参数传递,是Java入门学习中的基础知识,需要的朋友可以参考下
...
					
					
						mingli1986113212020-01-12
					
				
				
JAVA教程
				
					SpringBoot系列教程JPA之基础环境搭建的方法
					
						 这篇文章主要介绍了SpringBoot系列教程JPA之基础环境搭建的方法,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要...
					
					
						小灰灰Blog4312019-07-08
					
				
				
JAVA教程
				
					Java实现Map集合二级联动示例
					
						 Java实现Map集合二级联动示例,需要的朋友可以参考下
...
					
					
						java教程网3272019-11-11
					
				
				
JAVA教程
				
					浅析Java中对象的创建与对象的数据类型转换
					
						 这篇文章主要介绍了Java中对象的创建与对象的数据类型转换,是Java入门学习中的基础知识,需要的朋友可以参考下
...
					
					
						zhangjunhd4922020-03-22
					
				
				
JAVA教程
				
					java实现非法访问异常示例
					
						 创建ExceptionTest类，在该类的main()方法中，使用反射获得String类的所有域，不要使用setAccessible方法修改这些域的可见性，然后通过反射获得私有域中与”h...
					
					
						java技术网2902019-11-11
					
				
				
JAVA教程
				
					深入解析Java的Servlet过滤器的原理及其应用
					
						 这篇文章主要介绍了深入解析Java的Servlet过滤器的原理及应用,Java编写的Servlet通常是一个与网页一起作用于浏览器客户端的程序,需要的朋友可以参考下
...
					
					
						zhangjunhd1632020-03-20
					
				
				
JAVA教程
				
					Java通过反射机制动态设置对象属性值的方法
					
						 下面小编就为大家带来一篇Java通过反射机制动态设置对象属性值的方法。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看...
					
					
						jingxian2912020-05-31
					
				
				
JAVA教程
				
					MyBatis5中Spring集成MyBatis事物管理
					
						 这篇文章主要介绍了MyBatis5中MyBatis集成Spring事物管理的相关资料,需要的朋友可以参考下
...
					
					
						五月的仓颉2112020-04-24
					
				
				

			
		
	
	 
最近更新
Java爬虫抓取视频网站下载链接
Java爬虫实战抓取一个网站上的全部链接
JAVA 数据结构链表操作循环链表
Java 数据结构链表操作实现代码
Eclipse、MyEclipse 导入svn项目具体步骤
编辑推荐
2020最新好用的web服务器软件推荐
 2服务器操作系统有哪些?
2020-04-06
 3web服务器配置（图文详解）
2020-04-06
4企业如何选择阿里云服务器配置?
2019-10-18
5五大免费主机管理系统优缺点对比及推荐
2019-06-14
62019最新三款Windows下连接Linux的ssh软件下载推荐
2019-05-28
7服务器常用管理软件盘点
2019-05-27
8Nginx服务器究竟是怎么执行PHP项目
2019-05-24
9运维必须知道的关于云服务器的十个问题
2019-05-24
10什么叫cdn服务器？怎么部署？
2019-05-24
阅读排行
1 Windows搭建部署RocketMQ步骤详解
2 Spring cloud Feign 深度学习与应用详解
3 Intellij idea2020永久破解，亲测可用！！！
 4 Scala 操作Redis使用连接池工具类RedisUtil
5 Scala常用List列表操作方法示例
6 elasticsearch启动警告无法锁定JVM内存
7 java分形绘制科赫雪花曲线(科赫曲线)代码分享
8 JavaFX之TableView的使用详解
9 Mapper批量插入Oracle数据@InsertProvider注解
10 Java应用服务器对比 Tomcat、Jetty、 GlassFish、
热门标签
 501 　  2000 　  1433 　  415 　  内存卡 　  随机抽取 　  选择排序法 　  对象池模式 　  子线程 　  下载器 　  十六进制字符 　  响应 　  静态工厂 　  构造函数 　  swt 　  Overview 　  短信猫 　  作业调度 　  空心菱形 　  htmlparser 　  支票 　  金额大写转换 　  终止循环体 　  AspectJ 　  面向切面编程 　  方法名 　  网址信息 　  动态代理模式 　  线程安全 　  循环链表 　 




 © 2019-2020 服务器之家 版权所有 www.zzvips.com 关于我们联系我们版权申明网站地图




303