之前Python学了爬虫,暑假又去入门了机器学习,大致会使用tensorflow的神经网络算法和卷积神经网络算法做例子的手写字符识别了,于是想大胆尝试下验证码识别,毕竟都是分类问题,所以打算实战并且记录下,以后忘记了看一看,毕竟还是菜。
本文基本步骤如下:
-
爬取教务处验证码
-
对验证码进行二值化和降噪处理
-
对验证码进行字符分割处理
剩下的用tensorflow框架训练并识别的过程留在下一章中。
首先是去教务处官网爬取验证码
验证码地址:http://cj.shu.edu.cn/User/GetValidateCode?%20%20+%20GetTimestamp()
爬取并存储的代码:
对爬取的图片进行二值化处理和降噪
代码如下:
画出每列对应的黑点个数并统计绘图找规律
根据图像确定分割算法
剩下的就是保存下来了。
这是分割结果
下一章再继续补充训练过程。