随着ChatGPT等大语言模型的崛起,越来越多的企业和开发者希望能够构建自己的专业领域知识库,用于训练或微调AI模型。而网页作为最丰富的开放知识来源,自然成为首选的数据来源。本文将详细介绍如何系统地将网页内容转化为高质量的AI训练数据。
传统的知识获取方式往往依赖人工整理,不仅效率低下,而且难以覆盖全面。而网页内容具有以下优势:
- 信息更新及时
- 覆盖面广
- 形式多样
- 获取成本低
但直接使用原始网页数据又存在诸多问题,需要系统化的处理才能转化为有效的训练数据。
分享一个在线工具,打开网页后点demo
Reader APIRead URLs and search web for better grounding LLMs.https://jina.ai/reader/
点击后,跳转到下面页面,左边填写需要转换为知识库的网页。
以下面这个文章为例
右边会自动解析成Reader URL
https://r.jina.ai/https://uniapp.dcloud.net.cn/api/media/file.html
然后点击Fetch content
等待几秒钟,右边就是解析出来的知识库的内容,
可以直接复制后,导入到大模型的知识库,这样大模型就会按照这个知识库的内容回答。也可以在下面直接提问