python爬虫如何解决图片验证码_Python

之前刚开始做爬虫的时候遇到过登录验证码问题，看过很多帖子都没有解决我的问题，发现大多数帖子都是治标不治本，于是想分享一下自己的解决方案。本次采用的网站是古诗文网，使用百度API，因为百度API免费！免费！免费！适合自己学习的时候使用。如果还没有使用过百度API识别验证码的朋友可以看一下我的这个帖子。
以下案例采用的时古诗文网：登录古诗文网，

1、selenium处理图片验证码

先定位到验证码图片，在获取验证码图片在页面中的位置，使用save_screenshot截取页面，再根据图片的位置去截取验证码，最后通过接口识别文字获取验证码，直接上代码：

				?

									element = driver.find_element_by_id('imgCode') # 定位验证码图片

									# 获取验证码图片在网页中的位置

									left = int(element.location['x'])  # 获取图片左上角坐标x

									top = int(element.location['y'])  # 获取图片左上角y

									right = int(element.location['x'] + element.size['width'])    # 获取图片右下角x

									bottom = int(element.location['y'] + element.size['height'])  # 获取图片右下角y

									# 通过Image处理图像

									path = current_dir + str(random.random()) + '.png'  # 生成随机文件名

									driver.save_screenshot(path)    # 截取当前窗口并保存图片

									im = Image.open(path)        # 打开图片

									im = im.crop((left, top, right, bottom))  # 截图验证码

									im.save(path)    # 保存验证码图片

									# 使用百度API识别验证码

									def get_code():

									  client = AipOcr(APP_ID, API_KEY, SECRET_KEY)  # 百度API文档中提供的方法识别文字

									  # 由于我处理的验证码图片没有填多的线条，所以直接采用灰度是验证码数字更加清晰，具体的处理方式可根据验证码的实际情况而定

									  im = Image.open(path)

									  # 转换为灰度图像

									  im = im.convert('L')

									  im.save(path)

									  # 读取图片，应为百度API中提供的方法参数只能是字节流

									  with open(path, 'rb')as f:

									    image = f.read()

									  # 使用API中提供的方法识别验证码并返回验证码

									  code = client.basicGeneral(image)

									  print(code['words_result'][0]['words']) # {'words_result': [{'words': '4TBiD ', 'location': {'top': 1, 'left': 6, 'width': 43, 'height': 13}}], 'log_id': 1358288307112378368, 'words_result_num': 1}

									  return code['words_result'][0]['words']

2、使用requests请求验证码

这里用到了会话机制，对于初学者来说可能不太了解，简单说一下会话机制的作用，会话就是用来保存你之前请求的cookie，让浏览器知道你之前就在这里，这样浏览器就不会认为你重新来到这里，从而刷新验证码，这样就可以带着我们获取的验证码去登录了。

				?

									conn = requests.Sessoin(  # 创建会话

									resp = conn.get('https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx')

									selector = Selector(text=resp.text)

									img_url = 'https://so.gushiwen.cn/'+selector.xpath('.//img[@id="imgCode"]/@src').get() # 获取图片的路由

									img = conn.get(img_url)  # 保持会话请求

									filename = str(random.random()) + '.png'

									with open(filename, 'wb')as f:

									  f.write(img.content)

									# 为了后面的调用接口识别不报图片格式错误，进行一次图片转换

									im = Image.open(filename)

									im.save(filename)

									# 使用二进制方式读取图片

									with open(filename, 'rb')as f:

									image = f.read()

									data = client.handwriting(image)  # diao'yong

									# 使用API中提供的方法识别验证码并返回验证码

									code = client.basicGeneral(image)

									code = code['words_result'][0]['words']

selenium源码

				?

									# -* coding: utf-8 *-

									import time

									import random

									from PIL import Image

									from aip import AipOcr

									from selenium.webdriver import Chrome

									# 百度API参数

									APP_ID = '23647800'

									API_KEY = 'n95KOQgVuOMoAP72qZZo7uoN'

									SECRET_KEY = '7yhyGglHUsY52DD8kf4w0Qjnxum07hMK'

									client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 调用API接口

									def scrapy(username, password):

									  """

									  :param username:  用户名

									  :param password:  密码

									  """

									  driver = Chrome()

									  driver.get('https://so.gushiwen.cn/user/login.aspx')

									  driver.find_element_by_id('email').send_keys(username) # 输入账号

									  driver.find_element_by_id('pwd').send_keys(password)  # 输入密码

									  element = driver.find_element_by_id('imgCode') # 定位验证码图片

									  # 获取验证码图片在网页中的位置

									  left = int(element.location['x']) # 获取图片左上角坐标x

									  top = int(element.location['y']) # 获取图片左上角y

									  right = int(element.location['x'] + element.size['width']) # 获取图片右下角x

									  bottom = int(element.location['y'] + element.size['height']) # 获取图片右下角y

									  # 通过Image处理图像

									  filename = str(random.random()) + '.png' # 生成随机文件名

									  driver.save_screenshot(filename) # 截取当前窗口并保存图片

									  im = Image.open(filename) # 打开图片

									  im = im.crop((left, top, right, bottom)) # 截图验证码

									  im.save(filename) # 保存验证码图片

									  # 由于我处理的验证码图片没有填多的线条，所以直接采用灰度是验证码数字更加清晰，具体的处理方式可根据验证码的实际情况而定

									  im = Image.open(filename)

									  # 转换为灰度图像

									  im = im.convert('L')

									  im.save(filename)

									  # 读取图片，应为百度API中提供的方法参数只能是字节流

									  with open(filename, 'rb')as f:

									    image = f.read()

									  # 使用API中提供的方法识别验证码并返回验证码

									  data = client.basicGeneral(image)

									  try:

									    code = data['words_result'][0]['words']

									  except:

									    return data['error_msg']

									  driver.find_element_by_id('code').send_keys(code)  # 输入验证码

									  driver.find_element_by_id('denglu').click()   # 点击登录

									  time.sleep(1000)  # 为了看清登录，等待1000秒

									if __name__ == '__main__':

									  print(scrapy(username, password)) # 传入你在古诗文网注册的账号密码

requests源码

				?

									# -* coding: utf-8 *-

									import os

									import random

									import re

									import requests

									from PIL import Image

									from aip import AipOcr

									from scrapy import Selector

									headers = {

									  'referer': 'https://so.gushiwen.cn/user/login.aspx',

									  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36'

									}

									# 百度API参数

									APP_ID = '23647800'

									API_KEY = 'n95KOQgVuOMoAP72qZZo7uoN'

									SECRET_KEY = '7yhyGglHUsY52DD8kf4w0Qjnxum07hMK'

									def scrapy(username, password):

									  """

									  :param username:  用户名

									  :param password:  密码

									  """

									  client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 调用API接口

									  conn = requests.Session() # 创建会话

									  resp = conn.get('https://so.gushiwen.cn/user/login.aspx', headers=headers) # 获取登录页面

									  selector = Selector(text=resp.text)

									  __VIEWSTATE = selector.xpath('.//input[@id="__VIEWSTATE"]/@value').get()

									  __VIEWSTATEGENERATOR = selector.xpath('.//input[@id="__VIEWSTATEGENERATOR"]/@value').get()

									  img_url = 'https://so.gushiwen.cn/' + selector.xpath('.//img[@id="imgCode"]/@src').get() # 获取图片的路由

									  img = conn.get(img_url, headers=headers) # 获取图片路由

									  # 保存图片

									  filename = str(random.random()) + '.png' # 随机生成文件名， 图片格式不能为jpg，API不支持jpg格式的识别

									  with open(filename, 'wb')as f:

									    f.write(img.content)

									   # 由于我处理的验证码图片没有填多的线条，所以直接采用灰度是验证码数字更加清晰，具体的处理方式可根据验证码的实际情况而定

									  im = Image.open(filename)

									  # 转换为灰度图像

									  im = im.convert('L')

									  im.save(filename)

									  # 使用二进制方式读取图片

									  with open(filename, 'rb')as f:

									    image = f.read()

									  # # 标准识别, 每天免费50000次

									  # data = client.basicGeneral(image)

									  # 精确识别，每天免费500次

									  data = client.handwriting(image)

									  # 捕获一下接口识别当中的错误，可参照文档查看报错原因

									  try:

									    code = data['words_result'][0]['words']

									  except:

									    return data['error_msg']

									  form_data = {

									    '__VIEWSTATE': __VIEWSTATE,

									    '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,

									    'from': '',

									    'email': username,

									    'pwd': password,

									    'code':cod,

									    'denglu': '登录'

									  }

									  # 登录

									  html = conn.post('https://so.gushiwen.cn/user/login.aspx', headers=headers, data=form_data).text

									  # 获取登录标志位

									  login_flag = re.findall("alert\('(.*?)'\);",html)[0] if re.findall("alert\('(.*?)'\);",html) else ''

									  if not login_flag:

									    return '登录成功！'

									  elif '验证码有误！' in login_flag:

									    return "验证码错误"

									if __name__ == '__main__':

									  print(scrapy(username, password))