Python爬虫自动识别验证码登陆 - 代码天地

Python爬虫自动识别验证码登陆

编程语言 2023-07-12 17:12:25 阅读次数: 0

目录

三、注意事项

一、思路

使用selenium先get到页面，截取登陆界面（包括验证码）。代码处理+ocr识别，自从输出验证码，再使用selenium定位到登陆元素，点击登陆即可。

二、代码

from selenium import webdriver
import cv2
from paddleocr import PaddleOCR
import re
from PIL import Image
import requests
import sys
import scipy


if __name__ == '__main__':
    driver = webdriver.Chrome()
    driver.implicitly_wait(3)        # 设置隐士等待
    driver.get('url')    # 要爬取的url

    # 屏幕截图----进入到验证码界面再截图
    driver.save_screenshot('code.png')

    # 找到验证码                        验证码页面元素标签
    photo = driver.find_element_by_tag_name('img')
    x = photo.location['x']
    y = photo.location['y']
    width = photo.size['width']
    height = photo.size['height']

    # 保存验证码
    im = Image.open('code.png')
    im = im.crop((x, y, x + width, y + height))
    im.save('new_code.png')

    raw = cv2.imread('new_code.png',0)
    # 二值化图片
    binary = cv2.adaptiveThreshold(~raw, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 35, -5)
    cv2.imshow('binary_picture', binary)
    if cv2.waitKey(0):
        cv2.destroyWindow('binary_picture')

    # 调用paddleOCR识别
    ocr = PaddleOCR(use_angle_cls=True ,use_gpu=False)
    img_info = ocr.ocr(binary, cls=False)
    print(img_info)

    # 最终结果
    img_result = ""
    for line in img_info:
        # 得到图片中文字  循环加总，（多行的情况）
        img_result += line[-1][0]
        img_result += ' '

    # 去除特殊字符
    text1 = re.findall(r'[^\*"/:?\\|<>″′‖ 〈\n]', img_result, re.S)
    text1 = "".join(text1)
    print('验证码图片信息：' + text1)

三、注意事项

除上述之外还需做一个其他事情，就是假设验证码里包含x等形似数学运算符的，需要做一个判断来保持识别的准确率。

列如：

# 注意这里的×为乘号
if '×' in text:
    text.replace('×','X')

猜你喜欢

转载自blog.csdn.net/zkkkkkkkkkkkkk/article/details/126927712

Python爬虫自动识别验证码登陆

Python验证码自动识别

selenium实例：自动刷青马网课实现登陆 python实现自动登陆利用pytesseract自动识别验证码并登录

python 识别验证码自动登陆

Python爬虫实例动态ip+抓包+验证码自动识别

[机器视觉] 使用python自动识别验证码

Python图片验证码自动识别

WebDriver中自动识别验证码--Python实现

网站验证码自动识别

【Python爬虫】Session攻破爬虫登陆验证码

Python模拟登录，selenium模块，Python识别图形验证码实现自动登陆

Python识别图形验证码，实现自动登陆（附视频教程）

用Python识别图形验证码，实现自动登陆！

【点选验证码识别】某招标网站反爬虫分析与验证码自动识别

python 爬虫验证码模拟登陆

Scrapy框架爬虫登录与利用打码接口实现自动识别验证码

python爬虫21 | 对于b站这样的滑动验证码，不好意思，照样自动识别

selenium 识别验证码登陆

爬虫验证码很难吗？自动识别验证码程序了解一下？

网络爬虫 - 9 自动识别验证码与初识Scrapy框架

如何用Python实现自动识别验证码？ - 从零开始打造验证码识别神器

web网站验证码自动识别

中文点选验证码之自动识别

系统如何自动识别短信验证码

web爬虫讲解—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码

全程记录 Python web 开发验证码自动识别的程序，项目实战！

Python+selenium+pil+tesseract实现自动识别验证码

b站这样的滑动验证码，用Python照样自动识别

python+Selenium+Pytesseract 登录时自动识别验证码

爬虫入门四（验证码识别和模拟登陆）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)