对于rag应用来说,文档是第一步,对于部分扫描件的文件来讲,主要就需要OCR.
OCR
还有诸如
- chineseocr_lite
- darknet-ocr
- https://blog.csdn.net/CHYabc123456hh/article/details/107846268
- easyocr
OCR包含几类,
- 自然场景中的文字识别,文档中的文字识别
- pipeline: 文本检测,文本识别,文档结构化识别(版面分析,表格识别,关键信息提取)
表格识别
部署
pdf解析
文档解析
参考
- https://github.com/PaddleOCR-Community/Dive-into-OCR/blob/main/notebook_ch/1.introduction/OCR%E6%8A%80%E6%9C%AF%E5%AF%BC%E8%AE%BA.ipynb