构建AI知识库:如何高效将网页内容转化为大模型训练数据Jina Reader

随着ChatGPT等大语言模型的崛起,越来越多的企业和开发者希望能够构建自己的专业领域知识库,用于训练或微调AI模型。而网页作为最丰富的开放知识来源,自然成为首选的数据来源。本文将详细介绍如何系统地将网页内容转化为高质量的AI训练数据。

传统的知识获取方式往往依赖人工整理,不仅效率低下,而且难以覆盖全面。而网页内容具有以下优势:

  • 信息更新及时
  • 覆盖面广
  • 形式多样
  • 获取成本低

但直接使用原始网页数据又存在诸多问题,需要系统化的处理才能转化为有效的训练数据。

分享一个在线工具,打开网页后点demo

Reader APIRead URLs and search web for better grounding LLMs.icon-default.png?t=O83Ahttps://jina.ai/reader/

点击后,跳转到下面页面,左边填写需要转换为知识库的网页。

以下面这个文章为例

uni-app官网uni-app,uniCloud,serverless,uni.chooseFile(OBJECT),wx.chooseMessageFile(OBJECT)icon-default.png?t=O83Ahttps://uniapp.dcloud.net.cn/api/media/file.html

右边会自动解析成Reader URL

https://r.jina.ai/https://uniapp.dcloud.net.cn/api/media/file.html

然后点击Fetch content

等待几秒钟,右边就是解析出来的知识库的内容,

可以直接复制后,导入到大模型的知识库,这样大模型就会按照这个知识库的内容回答。也可以在下面直接提问