动手RAG: ocr文字识别

企业开发 2024-11-01 22:16

0 阅读

对于rag应用来说，文档是第一步，对于部分扫描件的文件来讲，主要就需要OCR.
在这里插入图片描述

OCR

还有诸如

chineseocr_lite
darknet-ocr
https://blog.csdn.net/CHYabc123456hh/article/details/107846268
easyocr

OCR包含几类，

自然场景中的文字识别，文档中的文字识别
pipeline: 文本检测，文本识别，文档结构化识别（版面分析，表格识别，关键信息提取）

在这里插入图片描述

表格识别

部署

pdf解析

文档解析

参考

https://github.com/PaddleOCR-Community/Dive-into-OCR/blob/main/notebook_ch/1.introduction/OCR%E6%8A%80%E6%9C%AF%E5%AF%BC%E8%AE%BA.ipynb