MinerU本地化部署教程——一款AI知识库建站的必备工具

前言:来一个官方一点的介绍:MinerU是一个一站式、开源、高质量的数据提取工具,支持多种功能,如提取 PDF、markdown 等格式的内容。

MinerU可以用来做什么?

现在很多公司和个人都喜欢借助例如 MaxKB、Dify、AnythingLLM等开源平台搭建私有化知识库平台。但是私有文档很多是PDF文件,RAG索引对PDF文件的处理效果有限,特别是如果还有图片内容,识别解析度准确度会更低。所以需要使用更适合的文档类型来提高识别的准确度,例如markdown文件等。

下面是直接安装客户端的版本(备注:客户端版本会使用在线网络)。

下载minerU,客户端版本下载地址:

https://mineru.net/

安装完成以后,可以直接上传文件进行解析。注意,这儿上传的文件,会被传输到远程的线上默认环境进行解析。

解析成功以后,本地会有输出的解析目录,如下所示。假如你用MaxKB的情况下,需要把images和full.md一起打包成zip压缩包丢给它。

举个例子,例如我使用MaxKB做知识库,把打包好的zip压缩包上传为知识库。

过程此处省略,直接看最终的测试效果,可以自动匹配相关内容,以及关联的图片输出。

但是使用客户端的minerU,毕竟文档会被上传到云端,如果遇到私密的文档,还可能存在消息泄露的隐患。所以需要本地化部署minerU来解决这个问题,毕竟本地才最安全。接下来开始本地化部署操作教程。

以下内容教程,基于Windows系统进行操作。

本地安装minerU之前,需要确保你的电脑上已经安装有Conda环境,如果有显卡资源(8G显存起步),还需要提前安装好Cuda环境、显卡驱动等。这部分安装我就不多描述了,此处默认大家已经安装。

使用conda命令,创建虚拟环境。此处指定python为3.10版本。

conda create -n mineru python=3.10

创建成功以后,激活conda环境。

conda activate mineru

安装magic-pdf环境,主要解析工具是这个。如果本身不怕墙的,阿里云镜像后缀可以不需要。

pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

安装完成以后,使用以下命令可以进行查看当前安装成功的版本。

magic-pdf --version

安装成功以后,还要继续安装 modelscope环境:

pip install modelscope

接下来,咱们在本地克隆一份minerU项目下来,后面会使用到:

git clone https://gitee.com/myhloli/MinerU.git

这conda环境下,目录定位到minerU项目的脚本文件夹路径下:

执行里面的download_models.py脚本,会自动开始下载有关模型文件

下载完成以后,会自动配置好配置文件,配置文件位于你自己电脑上的 C:\Users\用户名 路径下

接着定位到项目的demo路径下,可以看到里面有测试使用的三个pdf文件

先使用CPU执行一下,看下解析度测试效果,输出到当前路径下的output目录下

magic-pdf -p small_ocr.pdf -o ./output

执行以后,可以看到输出了md文件,以及其他一些杂项。打开MD文件和原始的PDF文件数据进行比对看效果,初步看起来识别是成功的。

如果本地有显卡资源,显存大于8GB的用户,可以安装cuda版本pytorch有关环境进行操作。先安装指定cuda版本的pytorch有关环境:

pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

我在安装期间报错了,看提示内容,是依赖的numpy包环境版本冲突。

上numpy库进行查看numpy的所有版本,找到一个不冲突进行代替,找到1.2x版本最新的是1.26.4,那咱们就用这个版本来代替吧。

直接安装1.26.4版本
pip install numpy==1.26.4

在magic-pdf的配置文件内,找到device-mode属性,把默认大模式是cpu改为cuda

改为cuda

修改完毕,直接运行,这次换一个带有图片的demo1.pdf,执行期间也可以看到输出日志,选择了cuda(显卡资源)来执行。

经过短暂的运行以后,跑完以后在指定输出的output文件夹下面,可以看到PDF文件被解析成功了,输出量md文件类型,并且里面的图片也被对应处理,放到了images文件夹下。

至此,一切准备就绪,接下来就可以对自己的PDF文档进行处理啦!

以上就是minerU本地安装配置的全部过程。没了。

如果本文章对你有帮助,欢迎点赞转发或留言,也欢迎扫码快捷关注我的公众号 Dotnet Dancer: