python利用Tesseract识别验证码的方法示例_Python

python利用Tesseract识别验证码的方法示例

2021-05-19 00:32老_大叔o Python

无论是是自动化登录还是爬虫，总绕不开验证码，这次就来谈谈python中光学识别验证码模块Tesseract，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

无论是是自动化登录还是爬虫，总绕不开验证码，这次就来谈谈python中光学识别验证码模块tesserocr和pytesseract。tesserocr和pytesseract是python的一个ocr识别库，但其实是对tesseract做的一层python api封装，pytesseract是google的tesseract-ocr引擎包装器；所以它们的核心是tesseract,因此在安装tesserocr之前，我们需要先安装tesseract。

下载安装

下载地址：https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe

下载完成后，双击安装，可以勾选additional language data(download)选项来安装ocr识别支持的语言包，但下载语言包实在是慢，我们可以直接从https://github.com/tesseract-ocr/tessdata/下载zip的语言包压缩文件，解压后将tessdata-master中的文件复制到tesseract的安装目录c:\program files (x86)\tesseract-ocr\tessdata目录下，最后我们配置下环境变量，我们将c:\program files (x86)\tesseract-ocr添加到环境变量中。进入命令提示符，输入tesseract，显示下图结果，说明配置完成

python利用Tesseract识别验证码的方法示例

查看安装了的语言包：tesseract --list-langs

python利用Tesseract识别验证码的方法示例

显示我一共安装了167种语言包，里边包含英文或者其他字符。

测试

实验用的二维码

python利用Tesseract识别验证码的方法示例

基本使用语法
tesseract image.png result （tesseract 图片名称生成文件名称）

结果

python利用Tesseract识别验证码的方法示例

由结果来看，识别出来了p、2和x，但是把c识别成了g，识别度还是比较高，接下来看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下载安装 pip install pytesseract

识别验证码脚本

				?

									import pytesseract

									from pil import image

									im=image.open('pin.png')

									print(pytesseract.image_to_string(im))

结果

python利用Tesseract识别验证码的方法示例

这样识别的结果同样跟上文一样，个别字符识别的不是很准确

图像处理

现在网站上的二维码设计的通常很难复杂，如果直接识别的话很难识别出来，下面这段代码是进行灰度处理和二值化

				?

									import pytesseract

									from pil import image

									im=image.open('5.jpg')

									#进行置灰处理

									im=im.convert('l')

									#这个是二值化阈值

									threshold=150

									table=[]

									for i in range(256):

									 if i<threshold:

									  table.append(0)

									 else:

									  table.append(1)

									#通过表格转换成二进制图片，1的作用是白色，0就是黑色

									im=im.point(table,"1")

									im.show()

									print(pytesseract.image_to_string(im))