记得应该是16年的时候,从一个公开课看到了关于OCR方面的内容,里面讲到了通过OpenCV对身份证号码区域的剪裁以及使用Tess-Two进行文字识别,实现了对身份证号码的识别功能。
断断续续看了点关于OpenCV的资料,感觉不是这个专业的真难看懂,各种公式各种名词。今天主要用于做个记录,那个一直碎碎念的东西终于完成了!
原理
我理解的原理(除去文字识别):
- 对图片进行降噪以及二值化,凸显内容区域
- 对图片进行轮廓检测
- 对轮廓结果进行分析
- 剪裁指定区域
代码实现
本文采用VS2017实现,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
|
#include "stdafx.h" #include "idocr.h" #include <opencv2/opencv.hpp> #include "opencv2/highgui/highgui.hpp" #include "opencv2/imgproc/imgproc.hpp" using namespace cv; using namespace std; void dealImg( char * path) { Mat src = imread(path); // 结果图 Mat dst; // 显示原图 imshow( "原图" , src); cvtColor(src, dst, COLOR_RGB2GRAY); // 高斯模糊,主要用于降噪 GaussianBlur(dst, dst, Size(3, 3), 0); imshow( "GaussianBlur图" , dst); // 二值化图,主要将灰色部分转成白色,使内容为黑色 threshold(dst, dst, 165, 255, THRESH_BINARY); imshow( "threshold图" , dst); // 中值滤波,同样用于降噪 medianBlur(dst, dst, 3); imshow( "medianBlur图" , dst); // 腐蚀操作,主要将内容部分向高亮部分腐蚀,使得内容连接,方便最终区域选取 erode(dst, dst, Mat(9, 9, CV_8U)); imshow( "erode图" , dst); //定义变量 vector<vector<Point>> contours; vector<Vec4i> hierarchy; findContours(dst, contours, hierarchy, RETR_CCOMP, CHAIN_APPROX_SIMPLE); Mat result; for ( int i = 0; i < hierarchy.size(); i++) { Rect rect = boundingRect(contours.at(i)); rectangle(src, rect, Scalar(255, 0, 255)); // 定义身份证号位置大于图片的一半,并且宽度是高度的6倍以上 if (rect.y > src.rows / 2 && rect.width / rect.height > 6) { result = src(rect); imshow( "身份证号" , result); } } imshow( "轮廓图" , src); } |
详细步骤:
- 载入原图
- 将原图转为灰度图
- 使用高斯模糊进行第一次降噪
- 将图片二值化
- 使用中值滤波进行降噪
- 腐蚀操作,主要将内容部分向高亮部分腐蚀,使得内容连接,方便最终轮廓检测
- 轮廓检测,获得所有轮廓
- 定义身份证号位置大于图片的一半,并且宽度是高度的6倍以上,并剪裁该区域
结果
对于身份证比较正的图片位置识别的还算是挺正确的,但是如果图片不正,那么第一步就应该对图片进行较正,无奈我是菜鸡。下面是网上搜的一个假身份证图片:
原图
轮廓检测图
剪裁结果图
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:https://www.jianshu.com/p/3a5c08a14ddd