PaddleOCR官方帮助文档
旧版本对应关系
Paddle OCR
paddleocr默认使用PP-OCRv4模型(–ocr_version PP-OCRv4),如需使用其他版本可通过设置参数–ocr_version,具体版本说明如下:
文本检测
检测+方向分类器+识别
- –use_angle_cls true设置使用方向分类器识别180度旋转文字,–use_gpu false设置不使用GPU
paddleocr --image_dir ./imgs/11.jpg --use_angle_cls true --use_gpu false
- 结果是一个list,每个item包含了文本框,文字和识别置信度
[[[28.0, 37.0], [302.0, 39.0], [302.0, 72.0], [27.0, 70.0]], ('纯臻营养护发素', 0.9658738374710083)]
......
输入pdf文件
- 可以通过指定参数page_num来控制推理前面几页,默认为0,表示推理所有页
paddleocr --image_dir ./xxx.pdf --use_angle_cls true --use_gpu false --page_num 2
单独使用检测
- 设置–rec为false
paddleocr --image_dir ./imgs/11.jpg --rec false
- 结果是一个list,每个item只包含识别结果和识别置信度
语言切换
- 通过修改–lang参数进行切换,对于英文模型,指定–lang=en。
paddleocr --image_dir ./imgs_en/254.jpg --lang=en
OCR检测脚本
- 检测图片
from paddleocr import PaddleOCR, draw_ocr
# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="ch")