Java爬虫抓取视频网站下载链接_JAVA教程

本篇文章抓取目标网站的链接的基础上，进一步提高难度，抓取目标页面上我们所需要的内容并保存在数据库中。这里的测试案例选用了一个我常用的电影下载网站（http://www.80s.la/）。本来是想抓取网站上的所有电影的下载链接，后来感觉需要的时间太长，因此改成了抓取2015年电影的下载链接。

一原理简介

其实原理都跟第一篇文章差不多，不同的是鉴于这个网站的分类列表实在太多，如果不对这些标签加以取舍的话，需要花费的时间难以想象。

Java爬虫抓取视频网站下载链接

分类链接和标签链接都不要，不通过这些链接去爬取其他页面，只通过页底的所有类型电影的分页去获取其他页面的电影列表即可。同时，对于电影详情页面，仅仅只是抓取其中的电影标题和迅雷下载链接，并不进行深层次的爬行，详情页面的一些推荐电影等链接通通不要。

Java爬虫抓取视频网站下载链接

最后就是将所有获取到的电影的下载链接保存在videoLinkMap这个集合中，通过遍历这个集合将数据保存到MySQL里

二代码实现

实现原理已经在上面说了，并且代码中有详细注释，因此这里就不多说了，代码如下：

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

									package action;

									import java.io.BufferedReader;

									import java.io.IOException;

									import java.io.InputStream;

									import java.io.InputStreamReader;

									import java.net.HttpURLConnection;

									import java.net.MalformedURLException;

									import java.net.URL;

									import java.sql.Connection;

									import java.sql.PreparedStatement;

									import java.sql.SQLException;

									import java.util.LinkedHashMap;

									import java.util.Map;

									import java.util.regex.Matcher;

									import java.util.regex.Pattern;

									public class VideoLinkGrab {

									  public static void main(String[] args) {

									    VideoLinkGrab videoLinkGrab = new VideoLinkGrab();

									    videoLinkGrab.saveData("http://www.80s.la/movie/list/-2015----p");

									  }

									  /**

									   * 将获取到的数据保存在数据库中

									   * 

									   * @param baseUrl

									   *      爬虫起点

									   * @return null

									   * */

									  public void saveData(String baseUrl) {

									    Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存储链接-是否被遍历

									    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 视频下载链接

									    String oldLinkHost = ""; // host

									    Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); // 比如：http://www.zifangsky.cn

									    Matcher m = p.matcher(baseUrl);

									    if (m.find()) {

									      oldLinkHost = m.group();

									    }

									    oldMap.put(baseUrl, false);

									    videoLinkMap = crawlLinks(oldLinkHost, oldMap);

									    // 遍历，然后将数据保存在数据库中

									    try {

									      Connection connection = JDBCDemo.getConnection();

									      for (Map.Entry<String, String> mapping : videoLinkMap.entrySet()) {

									        PreparedStatement pStatement = connection

									            .prepareStatement("insert into movie(MovieName,MovieLink) values(?,?)");

									        pStatement.setString(1, mapping.getKey());

									        pStatement.setString(2, mapping.getValue());

									        pStatement.executeUpdate();

									        pStatement.close();

									//       System.out.println(mapping.getKey() + " : " + mapping.getValue());

									      }

									      connection.close();

									    } catch (SQLException e) {

									      e.printStackTrace();

									    }

									  }

									  /**

									   * 抓取一个网站所有可以抓取的网页链接，在思路上使用了广度优先算法 对未遍历过的新链接不断发起GET请求， 一直到遍历完整个集合都没能发现新的链接

									   * 则表示不能发现新的链接了，任务结束

									   * 

									   * 对一个链接发起请求时，对该网页用正则查找我们所需要的视频链接，找到后存入集合videoLinkMap

									   * 

									   * @param oldLinkHost

									   *      域名，如：http://www.zifangsky.cn

									   * @param oldMap

									   *      待遍历的链接集合

									   * 

									   * @return 返回所有抓取到的视频下载链接集合

									   * */

									  private Map<String, String> crawlLinks(String oldLinkHost,

									      Map<String, Boolean> oldMap) {

									    Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>(); // 每次循环获取到的新链接

									    Map<String, String> videoLinkMap = new LinkedHashMap<String, String>(); // 视频下载链接

									    String oldLink = "";

									    for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) {

									      // System.out.println("link:" + mapping.getKey() + "--------check:"

									      // + mapping.getValue());

									      // 如果没有被遍历过

									      if (!mapping.getValue()) {

									        oldLink = mapping.getKey();

									        // 发起GET请求

									        try {

									          URL url = new URL(oldLink);

									          HttpURLConnection connection = (HttpURLConnection) url

									              .openConnection();

									          connection.setRequestMethod("GET");

									          connection.setConnectTimeout(2500);

									          connection.setReadTimeout(2500);

									          if (connection.getResponseCode() == 200) {

									            InputStream inputStream = connection.getInputStream();

									            BufferedReader reader = new BufferedReader(

									                new InputStreamReader(inputStream, "UTF-8"));

									            String line = "";

									            Pattern pattern = null;

									            Matcher matcher = null;

									            //电影详情页面，取出其中的视频下载链接，不继续深入抓取其他页面

									            if(isMoviePage(oldLink)){

									              boolean checkTitle = false;

									              String id="codetool">



	注：如果想要实现抓取其他网站的一些指定内容的话，需要将其中的一些正则表达式根据实际情况进行合理修改

	三 测试效果

	

	以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持服务器之家。

			
			
				 
			
		
		
			
				 
				Java
				
				爬虫
				
				视频网站
				
				Java爬虫
				
			
			
				
			
		
		
			
				延伸 · 阅读
			
			
				 2020-06-24java使用Socket类接收和发送数据
2020-06-24Java爬虫实战抓取一个网站上的全部链接
2020-06-24JAVA 数据结构链表操作循环链表
2020-06-24Java 数据结构链表操作实现代码
2020-06-24java实现zip,gzip,7z,zlib格式的压缩打包
2020-06-24Java常见内存溢出异常分析与解决

			
		
		
		
		
			
				
			
		
		
			
				精彩推荐
			
		
		
			
				
					
				
				 JAVA教程
				
					Spring中多配置文件及引用其他bean的方式
					
						 本文给大家介绍spring中多配置文件及引用其他bean的方式，涉及到spring配置文件的相关知识，感兴趣的朋友一起学习吧
...
					
					
						souvc2192020-04-14
					
				
				
JAVA教程
				
					Java 线程池详解及实例代码
					
						 这篇文章主要介绍了Java 线程池的相关资料,并符实例代码，帮助大家学习参考，需要的朋友可以参考下
...
					
					
						f2yy2042020-06-16
					
				
				
JAVA教程
				
					java dom4j解析xml文件代码实例分享
					
						 这篇文章主要介绍了java dom4j解析xml文件的方法，分享给大家参考
...
					
					
						java技术网2152019-10-23
					
				
				
JAVA教程
				
					java中final关键字使用示例详解
					
						 Java中的final关键字非常重要，它可以应用于类、方法以及变量。这篇文章中带你看看什么是final关键字？将变量，方法和类声明为final代表了什么？使用fi...
					
					
						java教程网3172019-10-30
					
				
				
JAVA教程
				
					Java语法基础之循环结构语句详解
					
						 这篇文章主要为大家详细介绍了Java语法基础之循环结构语句，感兴趣的小伙伴们可以参考一下...
					
					
						生命壹号3302020-06-14
					
				
				
JAVA教程
				
					spring实例化javabean的三种方式分享
					
						 这篇文章介绍了spring实例化javabean的三种方式，有需要的朋友可以参考一下
...
					
					
						java技术网5062019-10-16
					
				
				
JAVA教程
				
					JDBC 使用说明(流程、架构、编程)
					
						 这篇文章主要介绍了JDBC 使用说明,需要的朋友可以参考下
...
					
					
						mdxy-dxy3602020-01-03
					
				
				
JAVA教程
				
					Servlet和Filter之间的区别与联系
					
						 这篇文章主要介绍了Servlet和Filter之间的区别与联系的相关资料,需要的朋友可以参考下
...
					
					
						桑梓子1672020-04-24
					
				
				

			
		
	
	 
最近更新
java使用Socket类接收和发送数据
Java爬虫抓取视频网站下载链接
Java爬虫实战抓取一个网站上的全部链接
JAVA 数据结构链表操作循环链表
Java 数据结构链表操作实现代码
编辑推荐
2020最新好用的web服务器软件推荐
 2服务器操作系统有哪些?
2020-04-06
 3web服务器配置（图文详解）
2020-04-06
4企业如何选择阿里云服务器配置?
2019-10-18
5五大免费主机管理系统优缺点对比及推荐
2019-06-14
62019最新三款Windows下连接Linux的ssh软件下载推荐
2019-05-28
7服务器常用管理软件盘点
2019-05-27
8Nginx服务器究竟是怎么执行PHP项目
2019-05-24
9运维必须知道的关于云服务器的十个问题
2019-05-24
10什么叫cdn服务器？怎么部署？
2019-05-24
阅读排行
1 Windows搭建部署RocketMQ步骤详解
2 Spring cloud Feign 深度学习与应用详解
3 Intellij idea2020永久破解，亲测可用！！！
 4 Scala 操作Redis使用连接池工具类RedisUtil
5 Scala常用List列表操作方法示例
6 elasticsearch启动警告无法锁定JVM内存
7 java分形绘制科赫雪花曲线(科赫曲线)代码分享
8 JavaFX之TableView的使用详解
9 Mapper批量插入Oracle数据@InsertProvider注解
10 Java应用服务器对比 Tomcat、Jetty、 GlassFish、
热门标签
 501 　  2000 　  1433 　  415 　  内存卡 　  随机抽取 　  选择排序法 　  对象池模式 　  子线程 　  下载器 　  十六进制字符 　  响应 　  静态工厂 　  构造函数 　  swt 　  Overview 　  短信猫 　  作业调度 　  空心菱形 　  htmlparser 　  支票 　  金额大写转换 　  终止循环体 　  AspectJ 　  面向切面编程 　  方法名 　  网址信息 　  动态代理模式 　  线程安全 　  循环链表 　 




 © 2019-2020 服务器之家 版权所有 www.zzvips.com 关于我们联系我们版权申明网站地图




490