「这是我参与11月更文挑战的第20天，活动详情查看：2021最后一次更文挑战」。

前言

利用Python识别图形验证码，实现自动登陆。废话不多说。

让我们愉快地开始吧~

开发工具

Python版本： 3.6.4

相关模块：

re；

numpy模块；

pytesseract模块；

selenium模块；

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

1. 灰度处理 把彩色验证码图片转为灰色的图片

灰度处理

import cv2

image = cv2.imread('1.jpeg', 0)
cv2.imwrite('1.jpg', image)
复制代码

2. 二值化处理 将图片处理为只有黑白两色的图片，这里发现干扰线没有了，这就意味着我们只需要处理干扰点即可。

二值化处理

import cv2

image = cv2.imread('1.jpeg', 0)
ret, image = cv2.threshold(image, 100, 255, 1)
height, width = image.shape
new_image = image[0:height, 0:150]
cv2.imwrite('1.jpg', new_image)
复制代码

3. 降噪处理 去除小黑点，也就是孤立的黑色像素点。

降噪处理

点降噪原理就是检测黑色点相邻的8个点，判断8个点的颜色情况。如果全是白点，那么就认为这个点是白色的，做黑点变白点处理。如⑤点处，以田字格来看，相邻共有8个区域。

点降噪原理

①②③点坐标如下图，同理可知④⑤⑥⑦⑧⑨点坐标情况

点坐标情况

降噪代码

import cv2
import numpy as np
from PIL import Image


def inverse_color(image, col_range):
    # 读取图片，0意味着图片变为灰度图
    image = cv2.imread(image, 0)
    # 图片二值化，100为设置阀值，255为最大阀值，1为阀值类型，当前点值大于阀值，设置为0，否则设置为255。ret是return value缩写，代表当前的阀值
    ret, image = cv2.threshold(image, 110, 255, 1)
    # 图片的高度和宽度
    height, width = image.shape
    # 图片反色处理，原因：上面的处理只能生成白字黑底的图片，而我们需要的是黑字白底的图片
    img2 = image.copy()
    for i in range(height):
        for j in range(width):
            img2[i, j] = (255 - image[i, j])
    img = np.array(img2)
    # 对处理后的图片做截取
    height, width = img.shape
    new_image = img[0:height, col_range[0]:col_range[1]]
    cv2.imwrite('handle_one.png', new_image)
    image = Image.open('handle_one.png')
    return image


def clear_noise(img):
    # 图片降噪处理
    x, y = img.width, img.height
    for i in range(x):
        for j in range(y):
            if sum_9_region(img, i, j) < 2:
                # 改变像素点颜色，白色
                img.putpixel((i, j), 255)
    img = np.array(img)
    cv2.imwrite('handle_two.png', img)
    img = Image.open('handle_two.png')
    return img


def sum_9_region(img, x, y):
    """
    田字格
    """
    # 获取当前像素点的颜色值
    cur_pixel = img.getpixel((x, y))
    width = img.width
    height = img.height

    if cur_pixel == 255:  # 如果当前点为白色区域,则不统计邻域值
        return 10

    if y == 0:  # 第一行
        if x == 0:  # 左上顶点,4邻域
            # 中心点旁边3个点
            sum_1 = cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y + 1))
            return 4 - sum_1 / 255
        elif x == width - 1:  # 右上顶点
            sum_2 = cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x - 1, y)) + img.getpixel((x - 1, y + 1))
            return 4 - sum_2 / 255
        else:  # 最上非顶点,6邻域
            sum_3 = img.getpixel((x - 1, y)) + img.getpixel((x - 1, y + 1)) + cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y + 1))
            return 6 - sum_3 / 255

    elif y == height - 1:  # 最下面一行
        if x == 0:  # 左下顶点
            # 中心点旁边3个点
            sum_4 = cur_pixel + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y - 1)) + img.getpixel((x, y - 1))
            return 4 - sum_4 / 255
        elif x == width - 1:  # 右下顶点
            sum_5 = cur_pixel + img.getpixel((x, y - 1)) + img.getpixel((x - 1, y)) + img.getpixel((x - 1, y - 1))
            return 4 - sum_5 / 255
        else:  # 最下非顶点,6邻域
            sum_6 = cur_pixel + img.getpixel((x - 1, y)) + img.getpixel((x + 1, y)) + img.getpixel((x, y - 1)) + img.getpixel((x - 1, y - 1)) + img.getpixel((x + 1, y - 1))
            return 6 - sum_6 / 255

    else:  # y不在边界
        if x == 0:  # 左边非顶点
            sum_7 = img.getpixel((x, y - 1)) + cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x + 1, y - 1)) + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y + 1))
            return 6 - sum_7 / 255
        elif x == width - 1:  # 右边非顶点
            sum_8 = img.getpixel((x, y - 1)) + cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x - 1, y - 1)) + img.getpixel((x - 1, y)) + img.getpixel((x - 1, y + 1))
            return 6 - sum_8 / 255
        else:  # 具备9领域条件的
            sum_9 = img.getpixel((x - 1, y - 1)) + img.getpixel((x - 1, y)) + img.getpixel((x - 1, y + 1)) + img.getpixel((x, y - 1)) + cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x + 1, y - 1)) + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y + 1))
            return 9 - sum_9 / 255


def main():
    img = '1.jpeg'
    img = inverse_color(img, (0, 160))
    clear_noise(img)


if __name__ == '__main__':
    main()
复制代码

解决最大的问题后，接下来就是实现自动登陆。首先使用selenium自动点击登陆按钮。

目标网站

截图进行处理，最后成功获取验证码。

这里为什么是截图呢，原因是验证码图片一直在变化。比如说我现在复制这个8863验证码的图片链接，在新的标签页打开，会发现验证码改变了，不是8863，而是另外一张验证码图片。那么我们通过获取当前页面的验证码链接，从而来获取验证码图片，这种方法肯定是不可行的。

通过查阅相关资料，知道了带cookies访问验证码链接页面，能够成功解决这个问题。不过由于相关的库没导入成功，也就放弃了。等下回做验证码机器学习的时候，再给予解决。

登录界面

Python模拟登录，selenium模块，Python识别图形验证码实现自动登陆

前言

开发工具

环境搭建

降噪代码

登陆成功

猜你喜欢