服务器之家:专注于服务器技术及软件下载分享
分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - C# - C#多线程爬虫抓取免费代理IP的示例代码

C#多线程爬虫抓取免费代理IP的示例代码

2022-01-20 14:14L-H C#

本篇文章主要介绍了C#多线程爬虫抓取免费代理IP的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

这里用到一个HTML解析辅助类:HtmlAgilityPack,如果没有网上找一个增加到库里,这个插件有很多版本,如果你开发环境是使用VS2005就2.0的类库,VS2010就使用4.0,以此类推..........然后直接创建一个控制台应用,将我下面的代码COPY替换就可以运行,下面就来讲讲我两年前做爬虫经历,当时是给一家公司做,也是用的C#,不过当时遇到一个头痛的问题就是抓的图片有病毒,然后系统挂了几次。所以抓网站图片要注意安全,虽然我这里没涉及到图片,但是还是提醒下看文章的朋友。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
class Program
 {
   //存放所有抓取的代理
   public static List<proxy> masterPorxyList = new List<proxy>();
   //代理IP类
   public class proxy
   {
     public string ip;
 
     public string port;
     public int speed;
 
     public proxy(string pip,string pport,int pspeed)
     
     {
       this.ip = pip;
       this.port = pport;
       this.speed = pspeed;
      }
 
 
   }
   //抓去处理方法
   static void getProxyList(object pageIndex)
   {
 
     string urlCombin = "http://www.xicidaili.com/wt/" + pageIndex.ToString();
     string catchHtml = catchProxIpMethord(urlCombin, "UTF8");
     
 
     HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
     doc.LoadHtml(catchHtml);
 
 
     HtmlNode table = doc.DocumentNode.SelectSingleNode("//div[@id='wrapper']//div[@id='body']/table[1]");
 
     HtmlNodeCollection collectiontrs = table.SelectNodes("./tr"); 
 
 
     
       for (int i = 0; i < collectiontrs.Count; i++)
       {
         HtmlAgilityPack.HtmlNode itemtr = collectiontrs[i];
 
 
         HtmlNodeCollection collectiontds = itemtr.ChildNodes;
         //table中第一个是能用的代理标题,所以这里从第二行TR开始取值
         if (i>0)
         {
           HtmlNode itemtdip = (HtmlNode)collectiontds[3];
 
           HtmlNode itemtdport = (HtmlNode)collectiontds[5];
 
           HtmlNode itemtdspeed = (HtmlNode)collectiontds[13];
 
           string ip = itemtdip.InnerText.Trim();
           string port = itemtdport.InnerText.Trim();
 
 
           string speed = itemtdspeed.InnerHtml;
           int beginIndex = speed.IndexOf(":", 0, speed.Length);
           int endIndex = speed.IndexOf("%", 0, speed.Length);
 
           int subSpeed = int.Parse(speed.Substring(beginIndex + 1, endIndex - beginIndex - 1));
           //如果速度展示条的值大于90,表示这个代理速度快。
          if (subSpeed > 90)
           {
             proxy temp = new proxy(ip, port, subSpeed);
             
             masterPorxyList.Add(temp);
             Console.WriteLine("当前是第:" + masterPorxyList.Count.ToString() + "个代理IP");
           }
         
          }
 
 
       }
 
   }
 
   //抓网页方法
   static string catchProxIpMethord(string url,string encoding )
   {
 
     string htmlStr = "";
     try
     {
       if (!String.IsNullOrEmpty(url))
       {
         WebRequest request = WebRequest.Create(url); 
         WebResponse response = request.GetResponse();     
         Stream datastream = response.GetResponseStream();
         Encoding ec = Encoding.Default;
         if (encoding == "UTF8")
         {
           ec = Encoding.UTF8;
         }
         else if (encoding == "Default")
         {
           ec = Encoding.Default;
         }
         StreamReader reader = new StreamReader(datastream, ec);
         htmlStr = reader.ReadToEnd();       
         reader.Close();
         datastream.Close();
         response.Close();
       }
     }
     catch { }
     return htmlStr;
   }
 
 
  static void Main(string[] args)
    {
      //多线程同时抓15页
      for (int i = 1; i <= 15; i++)
      {
       
        
        ThreadPool.QueueUserWorkItem(getProxyList, i);
      }
      Console.Read();
    }
 
 }

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。

原文链接:http://www.cnblogs.com/xiaoliao/p/7436711.html?utm_source=tuicool&utm_medium=referral

延伸 · 阅读

精彩推荐
  • C#C#设计模式之Strategy策略模式解决007大破密码危机问题示例

    C#设计模式之Strategy策略模式解决007大破密码危机问题示例

    这篇文章主要介绍了C#设计模式之Strategy策略模式解决007大破密码危机问题,简单描述了策略模式的定义并结合加密解密算法实例分析了C#策略模式的具体使用...

    GhostRider10972022-01-21
  • C#利用C#实现网络爬虫

    利用C#实现网络爬虫

    这篇文章主要介绍了利用C#实现网络爬虫,完整的介绍了C#实现网络爬虫详细过程,感兴趣的小伙伴们可以参考一下...

    C#教程网11852021-11-16
  • C#VS2012 程序打包部署图文详解

    VS2012 程序打包部署图文详解

    VS2012虽然没有集成打包工具,但它为我们提供了下载的端口,需要我们手动安装一个插件InstallShield。网上有很多第三方的打包工具,但为什么偏要使用微软...

    张信秀7712021-12-15
  • C#C#微信公众号与订阅号接口开发示例代码

    C#微信公众号与订阅号接口开发示例代码

    这篇文章主要介绍了C#微信公众号与订阅号接口开发示例代码,结合实例形式简单分析了C#针对微信接口的调用与处理技巧,需要的朋友可以参考下...

    smartsmile20127762021-11-25
  • C#如何使用C#将Tensorflow训练的.pb文件用在生产环境详解

    如何使用C#将Tensorflow训练的.pb文件用在生产环境详解

    这篇文章主要给大家介绍了关于如何使用C#将Tensorflow训练的.pb文件用在生产环境的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴...

    bbird201811792022-03-05
  • C#深入理解C#的数组

    深入理解C#的数组

    本篇文章主要介绍了C#的数组,数组是一种数据结构,详细的介绍了数组的声明和访问等,有兴趣的可以了解一下。...

    佳园9492021-12-10
  • C#三十分钟快速掌握C# 6.0知识点

    三十分钟快速掌握C# 6.0知识点

    这篇文章主要介绍了C# 6.0的相关知识点,文中介绍的非常详细,通过这篇文字可以让大家在三十分钟内快速的掌握C# 6.0,需要的朋友可以参考借鉴,下面来...

    雨夜潇湘8272021-12-28
  • C#SQLite在C#中的安装与操作技巧

    SQLite在C#中的安装与操作技巧

    SQLite,是一款轻型的数据库,用于本地的数据储存。其优点有很多,下面通过本文给大家介绍SQLite在C#中的安装与操作技巧,感兴趣的的朋友参考下吧...

    蓝曈魅11162022-01-20