系统城装机大师 - 固镇县祥瑞电脑科技销售部宣传站!

当前位置:首页 > 脚本中心 > 其它 > 详细页面

Python使用requests xpath 并开启多线程爬取西刺代理ip实例

时间:2020-03-06来源:电脑系统城作者:电脑系统城

我就废话不多说啦,大家还是直接看代码吧!


 
  1. import requests,random
  2. from lxml import etree
  3. import threading
  4. import time
  5.  
  6. angents = [
  7. "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
  8. "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
  9. "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
  10. "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
  11. "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
  12. "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
  13. "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
  14. "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
  15. "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
  16. "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
  17. "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
  18. "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
  19. "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
  20. "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
  21. "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
  22. "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
  23. ]
  24.  
  25. def get_all_xici_urls(start_num,stop_num):
  26. xici_urls = []
  27. for num in range(start_num,len(stop_num)+1):
  28. xici_http_url = 'http://www.xicidaili.com/wt/'
  29. xici_http_url += str(num)
  30. xici_urls.append(xici_http_url)
  31. print('获取所有待爬取xici url 已完成...')
  32. return xici_urls
  33. def get_all_http_ip(xici_http_url,headers,proxies_list):
  34. try:
  35. all_ip_xpath = '//table//tr/child::*[2]/text()'
  36. all_prot_xpath = '//table//tr/child::*[3]/text()'
  37. response = requests.get(url=xici_http_url,headers=headers)
  38. html_tree = etree.HTML(response.text)
  39. ip_list = html_tree.xpath(all_ip_xpath)
  40. port_list = html_tree.xpath(all_prot_xpath)
  41. # print(ip_list)
  42. # print(prot_list)
  43. new_proxies_list = []
  44. for index in range(1,len(ip_list)):
  45. # print('http://{}:{}'.format(ip_list[index],port_list[index]))
  46. proxies_dict = {}
  47. proxies_dict['http'] = 'http://{}:{}'.format(str(ip_list[index]),str(port_list[index]))
  48. new_proxies_list.append(proxies_dict)
  49. proxies_list += new_proxies_list
  50. return proxies_list
  51. except Exception as e:
  52. print('发生了错误:url为 ',xici_http_url,'错误为 ',e)
  53.  
  54. if __name__ == '__main__':
  55. start_num = int(input('请输入起始页面:').strip())
  56. stop_num = int(input('请输入结束页面:').strip())
  57. print('开始爬取...')
  58. t_list = []
  59. # 容纳需要使用的西刺代理ip
  60. proxies_list = []
  61. # 使用多线程
  62. xici_urls = get_all_xici_urls(start_num,stop_num)
  63. for xici_get_url in xici_urls:
  64. #随机筛选一个useragent
  65. headers = {'User-Agent': random.choice(angents)}
  66. t = threading.Thread(target=get_all_http_ip,args=(xici_get_url,headers,proxies_list))
  67. t.start()
  68. t_list.append(t)
  69. for j in t_list:
  70. j.join()
  71. print('所有需要的代理ip已爬取完成...')
  72. print(proxies_list)
  73. print(len(proxies_list))

补充知识:python爬取xici的免费代理、并验证(重点、清楚)

网上爬取xici的帖子很多,但是验证都说的不是很清楚,这里我会认真给大家解释

这里我写了一个代理类proxy,写了四个方法(个人写法不必在意),get_user_agent(得到随机use-agent,请求头中最重要的一个)、get_proxy(爬取代理IP)、test_proxy(验证代理可用性)、store_txt(将可用的代理保存到txt文件中。

1.爬取:headers是请求头,choice是可以选择是爬取Http代理还是https代理,first、end为开始和结束的页码(结束不包含最后一页)


 
  1. def get_proxy(self, headers, choice='http', first=1, end=2):
  2. """
  3. 获取代理
  4. :param choice:
  5. :param first: 开始爬取的页数
  6. :param end: 结束爬取的后一页
  7. :return:
  8. """
  9.  
  10. ip_list = []
  11. base_url = None
  12.  
  13. # 选择爬取的网站,一个是http、一个是https的
  14. if choice == 'http':
  15. base_url = 'http://www.xicidaili.com/wt/'
  16. elif choice == 'https':
  17. base_url = 'http://www.xicidaili.com/wn/'
  18.  
  19. # 控制页码用正则匹配,并将爬取的IP和端口号用:链接
  20. for n in range(first, end):
  21. actual_url = base_url + str(n)
  22. html = requests.get(url=actual_url, headers=headers).text
  23. pattern = '(\d+\.\d+\.\d+\.\d+)</td>\s*<td>(\d+)'
  24. re_list = re.findall(pattern, html)
  25.  
  26. for ip_port in re_list:
  27. ip_port = ip_port[0] + ':' + ip_port[1]
  28. ip_list.append(ip_port)
  29. return ip_list

2. 验证:网上大部分是用request直接请求一个网址看是否通过或者看状态码是否是200, 但是有一个问题是即使你设置了代理IP。可能会通过,但通过的不是用你设置的代理IP而是用你自己公网下的IP(大部分时候我们用ifconfig查询的是我们所在局域网下的IP,及私网IP)。

linux下你可以用这些命令的其中任何一个查看你的公网IP:

curl icanhazip.com
curl ifconfig.me
curl curlmyip.com
curl ip.appspot.com
curl ipinfo.io/ip
curl ipecho.net/plain
curl www.trackip.net/i

注意:那这样要怎么办,其实我们可以向上述命令一样先用你爬下的代理IP访问 http://icanhazip.com/, 它可以返回你电脑发送请求时的公网IP(此时如果你设置代理IP了就会是返回你所发送请求的代理IP),然后你将它爬取下来(直接获取返回的值的文本就可以了),并和你发送请求时的代理IP作比较,如果不相等说明此代理IP不能用,因为虽然你设置了代理Ip,但是电脑在你代理IP请求不同的情况下,直接又使用了你公网的IP去请求,当然成功了,但不代表你的代理IP可以用。如果相等,那就证明此网站就是你所用的代理IP访问请求成功的,所以此IP可用。


 
  1. def test_proxy(self, ip_port, choice='http'):
  2. """
  3. 测试代理是否能用
  4. :param ip_port:
  5. :param choice:
  6. :return:
  7. """
  8. proxies = None
  9.  
  10. # 这个网站可以返回你公网下的IP,如果你加代理请求后,返回的就是你代理的IP(这样做是防止你虽然用的是代理IP,但实际是用你自己的公网IP访问的请求)
  11. tar_url = "http://icanhazip.com/"
  12.  
  13. # 获取随机User-agent
  14. user_agent = self.get_user_agent()
  15.  
  16. # 将user-agent放在headers中
  17. headers = {'User-Agent': user_agent}
  18.  
  19. # 选择验证的是http、还是https
  20. if choice == 'http':
  21. proxies = {
  22. "http": "http://"+ip_port,
  23. }
  24.  
  25. elif choice == 'https':
  26. proxies = {
  27. "https": "https://" + ip_port,
  28. }
  29.  
  30. try:
  31. # 将IP从IP和端口号连起来的分出来
  32. thisIP = "".join(ip_port.split(":")[0:1])
  33. res = requests.get(tar_url, proxies=proxies, headers=headers, timeout=8)
  34.  
  35. # 爬取下来返回的值,一定要用strip去除空格
  36. proxyIP = res.text.strip()
  37.  
  38. # 三个状态,如过直接通不过,那就返回false,如果通过但是不是代理的IP,也返回false
  39. if proxyIP == thisIP:
  40. return proxyIP
  41. else:
  42. return False
  43. except:
  44. return False

最后附上整段代码:


 
  1. import requests
  2. import re
  3. import random
  4. import codecs
  5. from urllib import parse
  6.  
  7.  
  8. class proxy:
  9. """
  10. 代理类
  11. """
  12. def __init__(self):
  13. pass
  14.  
  15. def get_user_agent(self):
  16. """
  17. 得到随机user-agent
  18. :return:
  19. """
  20. user_agents = [
  21. "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
  22. "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
  23. "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
  24. "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
  25. "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
  26. "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
  27. "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
  28. "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
  29. "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
  30. "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
  31. "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
  32. "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
  33. "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
  34. "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
  35. "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
  36. "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
  37. "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",
  38. "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
  39. "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
  40. "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
  41. "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
  42. "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
  43. "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
  44. "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
  45. "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
  46. "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
  47. "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
  48. "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
  49. "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
  50. "Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
  51. "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
  52. "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
  53. "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
  54. "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
  55. ]
  56. user_agent = random.choice(user_agents)
  57. return user_agent
  58.  
  59.  
  60. def get_proxy(self, headers, choice='http', first=1, end=2):
  61. """
  62. 获取代理
  63. :param choice:
  64. :param first: 开始爬取的页数
  65. :param end: 结束爬取的后一页
  66. :return:
  67. """
  68.  
  69. ip_list = []
  70. base_url = None
  71. if choice == 'http':
  72. base_url = 'http://www.xicidaili.com/wt/'
  73. elif choice == 'https':
  74. base_url = 'http://www.xicidaili.com/wn/'
  75.  
  76. for n in range(first, end):
  77. actual_url = base_url + str(n)
  78. html = requests.get(url=actual_url, headers=headers).text
  79. pattern = '(\d+\.\d+\.\d+\.\d+)</td>\s*<td>(\d+)'
  80. re_list = re.findall(pattern, html)
  81.  
  82. for ip_port in re_list:
  83. ip_port = ip_port[0] + ':' + ip_port[1]
  84. ip_list.append(ip_port)
  85. return ip_list
  86.  
  87.  
  88. def test_proxy(self, ip_port, choice='http'):
  89. """
  90. 测试代理是否能用
  91. :param ip_port:
  92. :param choice:
  93. :return:
  94. """
  95. proxies = None
  96. # 这个网站可以返回你公网下的IP,如果你加代理请求后,返回的就是你代理的IP(这样做是防止你虽然用的是代理IP,但实际是用你自己的公网IP访问的请求)
  97. tar_url = "http://icanhazip.com/"
  98. user_agent = self.get_user_agent()
  99. headers = {'User-Agent': user_agent}
  100. if choice == 'http':
  101. proxies = {
  102. "http": "http://"+ip_port,
  103. }
  104.  
  105. elif choice == 'https':
  106. proxies = {
  107. "https": "https://" + ip_port,
  108. }
  109. try:
  110. thisIP = "".join(ip_port.split(":")[0:1])
  111. res = requests.get(tar_url, proxies=proxies, headers=headers, timeout=8)
  112. proxyIP = res.text.strip()
  113. if proxyIP == thisIP:
  114. return proxyIP
  115. else:
  116. return False
  117. except:
  118. return False
  119.  
  120. def store_txt(self, choice='http', first=1, end=2):
  121. """
  122. 将测试通过的ip_port保存为txt文件
  123. :param choice:
  124. :param first:
  125. :param end:
  126. :return:
  127. """
  128. user_agent = self.get_user_agent()
  129. headers = {'User-Agent': user_agent}
  130. ip_list = self.get_proxy(headers=headers, choice=choice, first=first, end=end)
  131. with codecs.open("Http_Agent.txt", 'a', 'utf-8') as file:
  132. for ip_port in ip_list:
  133. ip_port = self.test_proxy(ip_port, choice=choice)
  134. print(ip_port)
  135. if ip_port:
  136. file.write('\'' + ip_port + "\'\n")

以上这篇Python使用requests xpath 并开启多线程爬取西刺代理ip实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。

分享到:

相关信息

  • Go json反序列化“null“的问题解决

    有这么一段代码,可以先看一下有没有什么问题,作用是输入一段json字符串,反序列化成map,然后将另一个inputMap的内容,merge进这个map 1 2 3 4 5 6 7 8 9 10 11 12 13 14...

    2023-03-15

  • Golang 字符串转time类型实现

    由于数据库的类型为Data 类型,所以插入数据库的时候我先把前端传入的string类型的时间转为Time 再插入。 Go 提供了两种插入的方式,即time.Parse 和 time.ParseInLocation 。两种方式,他们的差异比较大。...

    2023-03-09

系统教程栏目

栏目热门教程

人气教程排行

站长推荐

热门系统下载