基于TypeScript从0到1搭建一款爬虫工具_JavaScript

基于TypeScript从0到1搭建一款爬虫工具

前言

今天，我们将使用TS这门语言搭建一款爬虫工具。目标网址是什么呢?我们去上网一搜，经过几番排查之后，我们选定了这一个网站。

https://www.hanju.run/

一个视频网站，我们的目的主要是爬取这个网站上视频的播放链接。下面，我们就开始进行第一步。

第一步

俗话说，万事开头难。不过对于这个项目而言，恰恰相反。你需要做以下几个事情：

1.我们需要创建一个项目文件夹

2.键入命令，初始化项目

npm init -y

3.局部安装typescript

npm install typescript -D

4.接着键入命令，生成ts配置文件

tsc --init

5.局部安装ts-node，用于命令行输出命令

npm install -D ts-node

6.在项目文件夹中创建一个src文件夹

然后我们在src文件夹中创建一个crawler.ts文件。

7.在package.json文件中修改快捷启动命令

"scripts": {
"dev-t": "ts-node ./src/crawler.ts"
}

第二步

接下来，我们将进行实战操作，也就是上文中crawler.ts文件是我们的主战场。

我们首先需要引用的这几个依赖，分别是

import superagent from "superagent";
import cheerio from "cheerio";
import fs from "fs";
import path from "path";

所以，我们会这样安装依赖：

superagent作用是获取远程网址html的内容。

npm install superagent

cheerio作用是可以通过jQ语法获取页面节点的内容。

npm install cheerio

剩余两个依赖fs，path。它们是node内置依赖，直接引入即可。

我们完成了安装依赖，但是会发现你安装的依赖上会有红色报错。原因是这样的，superagent和cheerio内部都是用JS写的，并不是TS写的，而我们现在的环境是TS。所以我们需要翻译一下，我们将这种翻译文件又称类型定义文件(以.d.ts为后缀)。我们可以使用以下命令安装类型定义文件。

npm install -D @types/superagent

npm install -D @types/cheerio

接下来，我们就认认真真看源码了。

1.安装完两个依赖后，我们需要创建一个Crawler类，并且将其实例化。

import superagent from "superagent";
import cheerio from "cheerio";
import fs from "fs";
import path from "path";
class Crawler {
constructor() {
}
}
const crawler = new Crawler();

2.我们确定下要爬取的网址，然后赋给一个私有变量。最后我们会封装一个getRawHtml方法来获取对应网址的内容。

getRawHtml方法中我们使用了async/await关键字，主要用于异步获取页面内容，然后返回值。

import superagent from "superagent";
import cheerio from "cheerio";
import fs from "fs";
import path from "path";
class Crawler {
private url = "https://www.hanju.run/play/39221-4-0.html";
async getRawHtml() {
const result = await superagent.get(this.url);
return result.text;
}
async initSpiderProcess() {
const html = await this.getRawHtml();
}
constructor() {
this.initSpiderProcess();
}
}
const crawler = new Crawler();

3.使用cheerio依赖内置的方法获取对应的节点内容。

我们通过getRawHtml方法异步获取网页的内容，然后我们传给getJsonInfo这个方法，注意是string类型。我们这里通过cheerio.load(html)这条语句处理，就可以通过jQ语法来获取对应的节点内容。我们获取到了网页中视频的标题以及链接，通过键值对的方式添加到一个对象中。注：我们在这里定义了一个接口，定义键值对的类型。