MinerU本地化部署教程——一款AI知识库建站的必备工具

前言：来一个官方一点的介绍：MinerU是一个一站式、开源、高质量的数据提取工具，支持多种功能，如提取 PDF、markdown 等格式的内容。

MinerU可以用来做什么？

现在很多公司和个人都喜欢借助例如 MaxKB、Dify、AnythingLLM等开源平台搭建私有化知识库平台。但是私有文档很多是PDF文件，RAG索引对PDF文件的处理效果有限，特别是如果还有图片内容，识别解析度准确度会更低。所以需要使用更适合的文档类型来提高识别的准确度，例如markdown文件等。

下面是直接安装客户端的版本（备注：客户端版本会使用在线网络）。

下载minerU，客户端版本下载地址：

https://mineru.net/

安装完成以后，可以直接上传文件进行解析。注意，这儿上传的文件，会被传输到远程的线上默认环境进行解析。

解析成功以后，本地会有输出的解析目录，如下所示。假如你用MaxKB的情况下，需要把images和full.md一起打包成zip压缩包丢给它。

举个例子，例如我使用MaxKB做知识库，把打包好的zip压缩包上传为知识库。

过程此处省略，直接看最终的测试效果，可以自动匹配相关内容，以及关联的图片输出。

但是使用客户端的minerU,毕竟文档会被上传到云端，如果遇到私密的文档，还可能存在消息泄露的隐患。所以需要本地化部署minerU来解决这个问题，毕竟本地才最安全。接下来开始本地化部署操作教程。

以下内容教程，基于Windows系统进行操作。

本地安装minerU之前，需要确保你的电脑上已经安装有Conda环境，如果有显卡资源（8G显存起步），还需要提前安装好Cuda环境、显卡驱动等。这部分安装我就不多描述了，此处默认大家已经安装。

使用conda命令，创建虚拟环境。此处指定python为3.10版本。

conda create -n mineru python=3.10

创建成功以后，激活conda环境。

conda activate mineru

安装magic-pdf环境，主要解析工具是这个。如果本身不怕墙的，阿里云镜像后缀可以不需要。

pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

安装完成以后，使用以下命令可以进行查看当前安装成功的版本。

magic-pdf --version

安装成功以后，还要继续安装 modelscope环境：

pip install modelscope

接下来，咱们在本地克隆一份minerU项目下来，后面会使用到：

git clone https://gitee.com/myhloli/MinerU.git

这conda环境下，目录定位到minerU项目的脚本文件夹路径下：

执行里面的download_models.py脚本，会自动开始下载有关模型文件

下载完成以后，会自动配置好配置文件，配置文件位于你自己电脑上的 C:\Users\用户名路径下

接着定位到项目的demo路径下，可以看到里面有测试使用的三个pdf文件

先使用CPU执行一下，看下解析度测试效果，输出到当前路径下的output目录下

magic-pdf -p small_ocr.pdf -o ./output

执行以后，可以看到输出了md文件，以及其他一些杂项。打开MD文件和原始的PDF文件数据进行比对看效果，初步看起来识别是成功的。

如果本地有显卡资源，显存大于8GB的用户，可以安装cuda版本pytorch有关环境进行操作。先安装指定cuda版本的pytorch有关环境：

pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

我在安装期间报错了，看提示内容，是依赖的numpy包环境版本冲突。

上numpy库进行查看numpy的所有版本，找到一个不冲突进行代替，找到1.2x版本最新的是1.26.4，那咱们就用这个版本来代替吧。

直接安装1.26.4版本

pip install numpy==1.26.4

在magic-pdf的配置文件内，找到device-mode属性，把默认大模式是cpu改为cuda

改为cuda

修改完毕，直接运行，这次换一个带有图片的demo1.pdf，执行期间也可以看到输出日志，选择了cuda(显卡资源)来执行。

经过短暂的运行以后，跑完以后在指定输出的output文件夹下面，可以看到PDF文件被解析成功了，输出量md文件类型，并且里面的图片也被对应处理，放到了images文件夹下。

至此，一切准备就绪，接下来就可以对自己的PDF文档进行处理啦！

以上就是minerU本地安装配置的全部过程。没了。

如果本文章对你有帮助，欢迎点赞转发或留言，也欢迎扫码快捷关注我的公众号 Dotnet Dancer：

猜你喜欢

目录

热门文章