C#.Net基于正则表达式抓取百度百家文章列表的方法示例_C#

C#.Net基于正则表达式抓取百度百家文章列表的方法示例

2022-01-20 14:00马羊 C#

这篇文章主要介绍了C#.Net基于正则表达式抓取百度百家文章列表的方法,结合实例形式分析了C#获取百度百家文章内容及使用正则表达式匹配标题、内容、地址等相关操作技巧,需要的朋友可以参考下

本文实例讲述了C#.Net基于正则表达式抓取百度百家文章列表的方法。分享给大家供大家参考，具体如下：

工作之余，学习了一下正则表达式，鉴于实践是检验真理的唯一标准，于是便写了一个利用正则表达式抓取百度百家文章的例子，具体过程请看下面源码：

一、获取百度百家网页内容

				?

									public List<string[]> GetUrl()

									{

									  try

									  {

									    string url = "http://baijia.baidu.com/";

									    WebRequest webRequest = WebRequest.Create(url);

									    WebResponse webResponse = webRequest.GetResponse();

									    StreamReader reader = new StreamReader(webResponse.GetResponseStream());

									    string result = reader.ReadToEnd();

									    reader.Close();

									    webResponse.Close();

									    return AnalysisHtml(result);

									  }

									  catch (Exception ex)

									  {

									    throw ex;

									  }

									}

二、通过正则表达式筛选

				?

									public List<string[]> AnalysisHtml(string htmlContent)

									{

									  List<string[]> list = new List<string[]>();

									  string strPattern = "<h3><a\\s*.*>(?<Title>[^<]+)</a></h3>.*\\s*<p\\s*class=\"feeds-item-text\">(?<Abstract>[^<]+)<a\\s*href=\"(?<Url>.*)\"\\s*target=\"_blank\"\\s*class=\"feeds-item-more\"\\s*mon=\".*\\s*\">.*\\s*</a></p>";

									  Regex regex = new Regex(strPattern, RegexOptions.IgnoreCase | RegexOptions.Multiline | RegexOptions.CultureInvariant);

									  if (regex.IsMatch(htmlContent))

									  {

									    MatchCollection matchCollection = regex.Matches(htmlContent);

									    foreach (Match match in matchCollection)

									    {

									      string[] str = new string[3];

									      str[0] = match.Groups[1].Value;//获取到的是列表数据的标题

									      str[1] = match.Groups[2].Value;//获取到的是内容

									      str[2] = match.Groups[3].Value;//获取到的是链接到的地址

									      list.Add(str);

									    }

									  }

									  return list;

									}