Java基于WebMagic爬取某豆瓣电影评论的实现_Java教程

Java基于WebMagic爬取某豆瓣电影评论的实现

2021-08-18 13:49Victor.Chang Java教程

这篇文章主要介绍了Java基于WebMagic爬取某豆瓣电影评论的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

目的

搭建爬虫平台，爬取某豆瓣电影的评论信息。

准备

webmagic是一个开源的java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic的核心非常简单，但是覆盖爬虫的整个流程，也是很好的学习爬虫开发的材料。

下载webmagic源码，或maven导入，或jar包方式导入。码云地址：https://gitee.com/flashsword20/webmagic

试运行

搭建好后打开项目，在 us.codecraft.webmagic.processor.example 包下有几个可运行的例子，我们可以直接运行体验（baidubaikepageprocessor 百度百科的这个比较稳定）。

爬到结果说明没问题。

Java基于WebMagic爬取某豆瓣电影评论的实现

自定义爬虫

接下来我们自己编写一个爬取豆瓣评论的爬虫。

爬取地址：https://movie.douban.com/subject/35096844/reviews?start=0

Java基于WebMagic爬取某豆瓣电影评论的实现

f12进入开发者模式分析前端页面

Java基于WebMagic爬取某豆瓣电影评论的实现

我们发现我们需要爬取的评论信息存放在 class=short-content的div 中。

创建一个豆瓣爬取的类doubanpageprocessor如下：

				?

									package us.codecraft.webmagic.processor.example;

									import us.codecraft.webmagic.page;

									import us.codecraft.webmagic.resultitems;

									import us.codecraft.webmagic.site;

									import us.codecraft.webmagic.spider;

									import us.codecraft.webmagic.processor.pageprocessor;

									import java.util.list;

									import java.util.map;

									/**

									 * a simple pageprocessor.

									 * 爬取豆瓣某电影的评论  爬取地址：https://movie.douban.com/subject/35096844/reviews?start=0

									 *

									 * @author code4crafter@gmail.com <br>

									 * @since 0.1.0

									 */

									public class doubanpageprocessor implements pageprocessor {

									  private site site;

									  public doubanpageprocessor(string urlpattern) {

									    this.site = site.me().setretrytimes(3).setsleeptime(300); // 设置站点重试次数3 间隔300ms

									  }

									  @override

									  public void process(page page) {

									    page.putfield("title", page.gethtml().xpath("//title/text()")); //爬取网页标题

									//    page.putfield("html", page.gethtml().tostring()); //爬取整个页面的html

									    page.putfield("titlelist", page.gethtml().css("div.short-content", "text").all()); // 我们要爬取的核心信息内容，获取方式与css选择器用法一样

									//    page.putfield("content", page.gethtml().smartcontent());

									  }

									  @override

									  public site getsite() {

									    //settings

									    return site;

									  }

									  public static void main(string[] args) {

									    spider spider = spider.create(new doubanpageprocessor("https://movie\\.douban\\.com\\d+"));

									    resultitems resultitems = spider.<resultitems>get("https://movie.douban.com/subject/35096844/reviews?start=0");// 爬取并获得爬取结果

									    map<string, object> map = resultitems.getall();

									    for (map.entry entry : map.entryset()) {

									      system.out.println(entry.getkey() + " : " + entry.getvalue()); //打印爬取的所有内容

									    }

									    list<string> shortlist = (list<string>) map.get("titlelist");

									    system.out.println("=====================分隔线===================\n短评如下：");

									    for (int i = 0; i < shortlist.size(); i++) {

									      system.out.println(i + "、" + shortlist.get(i).trim()); // 打印爬取的评论内容

									    }

									    spider.close();

									  }

									}