文章目录
一、快速入门
1. 什么是知识库和解决什么问题?
知识库(Knowledge Base)是一个存储和管理知识的系统,通常包含结构化和非结构化的信息,用于帮助用户或系统快速查找和获取相关知识。
你可以把它想象成一个“知识仓库”,里面存放着各种有用的信息,比如文档、常见问题解答(FAQ)、数据库、规则、案例等。
解决问题: 可以解决大模型撰造知识和幻觉的问题。
举个栗子:
假设你是一家公司的客服人员,客户问你一个关于产品的问题。
如果你有一个完善的知识库,你可以直接在知识库中搜索相关产品的使用说明或常见问题解答,快速找到答案并回复客户。
如果没有知识库,你可能需要去问同事或查找一堆文档,效率会低很多。
那说到知识库,这里我们又不得不提到另外一个词——RAG.
然后,问题又来了,那么…
2. 什么是RAG?
RAG(Retrieval Augmented Generation,检索增强生成)是一种让大语言模型(LLM)变得更聪明的方法。
简单来说,它通过给模型提供一个外部的“知识库”,让模型在回答问题时可以“查资料”,从而给出更准确、更相关的答案。
举个栗子:
想象一下,大模型就像一个学生,而RAG系统就是一本字典。
当学生遇到不懂的问题时,他可以翻开字典查找相关的解释,然后再根据字典里的内容回答问题。
这样,学生不仅能回答得更准确,还能避免“瞎编”答案。
那么,当大模型遇到不懂的问题时,他也可以查字典,也就是RAG系统。
3. 为什么需要RAG?
**大模型的知识有限:**大模型的知识主要来自它训练时用的数据,而这些数据是有限的,尤其是企业内部的业务知识或产品信息,模型可能完全不了解。
**微调成本高:**如果想让大模型学习企业特定的知识,通常需要微调模型,但这不仅成本高,而且效果也不一定好。
**幻觉问题:**大模型在不熟悉的领域可能会“瞎编”答案,这在企业应用中是不可接受的,尤其是那些需要准确信息的场景。
4. RAG 的运作流程图
这里,我先贴出一个 RAG 的运作流程图。
从文档处理角度来看,实现流程如下:
5. 搭建步骤概览
如何用DeepSeek + Cherry Studio在本地搭建私有知识库。
具体搭建实操步骤
步骤一: 下载Cherry Studio可视化工具
不懂怎么操作的先去看这篇文章
步骤二: 部署DeepSeek模型 + Embedding模型
那么,这里又分为两种方式
方式一: 下载去官网下载Ollama工具
-
好处: 可以实现本地部署DeepSeek模型 + Embedding模型,免费
-
坏处: 需要一定的电脑配置才行,不然模型就很鸡肋
方式二: 注册硅基流动账号
-
好处: 不用本地部署
-
坏处: 调用云端的模型服务需要一定的费用,但是也不贵。
方式三: 注册DeepSeek账号
-
好处: 不用本地部署
-
坏处: 调用云端的模型服务需要一定的费用,但是也不贵。
今天我们重点介绍的是第二种方式———硅基流动+Cherry Studio 搭建本地私有知识库。
二、CherryStudio下载和安装
2.1. CherryStudio下载
2.2. CherryStudio安装
2.3. CherryStudio 集成 DeepDeek API(在线)
模型标识 | 模型名称 |
---|---|
DeepSeek Chat | DeepSeek V3 |
DeepSeek Reasoner | DeepSeek R1 |
Deepseek官网:https://api-docs.deepseek.com/zh-cn/quick_start/pricing
2.4. DeepSeek 服务体验
2.5. DeepSeek 模型切换
点击顶部模型名称,弹出模型列表,选择已配置模型即可,
这里演示DeepSeek R1 模型切换为DeepSeek V3模型
三、CherryStudio 通过硅基流动 集成DeepSeek
3.1. 注册硅基流动账号
https://cloud.siliconflow.cn/i/MtLRYuAc
3.2. 生成API密钥
3.3. 配置API密钥
输入API密钥后->点击检查->从模型列表中【选择R1模型】
打开服务开关
3.4. 体验DeepSeek服务
四、CherryStudio集成本地Ollama部署的DeepSeek
4.1. 配置本地Ollama DeepSeek
选择Ollama-打开服务开关
点击【管理】后选择模型点击+
号
4.2. 切换模型选择本地Ollama DeepSeek R1
从模型列表中,有3个厂商的模型服务,选择Ollama厂商的DeepSeek R1服务。
4.3. 体验本地DeepSeek 服务
五、私域知识库搭建
5.1. 添加DeepSeek推理模型
点击底部的 【管理按钮】,在模型管理服务中查找模型,点击【全部】默认就能看到;
找到需要的模型,点击右侧【+】添加到我的模型。
5.2. 创建知识库
知识库入口:在 CherryStudio 左侧工具栏,点击知识库图标,即可进入管理页面;
添加知识库:点击添加,开始创建知识库;
命名:输入知识库的名称并添加嵌入模型,以 BAAI/bge-m3
为例,即可完成创建。
5.3. 添加文件并向量化
添加文件: 点击添加文件的按钮,打开文件选择;
选择文件: 选择支持的文件格式,如 pdf,docx,pptx,xlsx,txt,md,mdx 等,并打开;
**向量化:**系统会自动进行向量化处理,当显示完成时(绿色 ✓),代表向量化已完成
5.4. 添加多种来源的数据
Cherry Studio 支持多种添加数据的方式:
这里只是说明可以支持很多格式和方式对接,自己尝试一下吧。
文件夹目录: 可以添加整个文件夹目录,该目录下支持格式的文件会被自动向量化;
网址链接: 支持网址url,如:https://www.xiaoerpro.com/;
站点地图: 支持xml格式的站点地图,如:https://www.xiaoerpro.com/sitemap.xml;
纯文本笔记: 支持输入纯文本的自定义内容。
**向量化:**当显示绿色 “√” 表示向量化完成,点击 探索知识库按钮即可开始查询
5.5. 搜索知识库
当文件等资料向量化完成后,即可进行查询:
点击页面下方的搜索知识库按钮;
- 输入查询的内容;
- 呈现搜索的结果;
- 并显示该条结果的匹配分数。
5.6. 输入关键词搜索知识库
比如,这里我输入:”申请解除合同,应提供资料有哪些?“
申请解除合同,应提供资料有哪些?
5.6. 对话中引用知识库生成回复
创建一个新的话题,在对话工具栏中,点击知识库,会展开已经创建的知识库列表,选择需要引用的知识库;
输入并发送问题,模型即返回通过检索结果生成的答案 ;
同时,引用的数据来源会附在答案下方,可快捷查看源文件。
六、优化
6.1. 添加提示词
然后,为了更好的使用知识库,
我们还可以再新建一个 助手 下面需要填写 提示词,
提示词太长,我把链接地址放下面,自己去复制即可。
知识库提示词
https://github.com/richards199999/Thinking-Claude/blob/main/model_instructions/v5.1-extensive-20241201.md
这里的prompt复制后,在对应的对话界面的提示词中粘贴即可。
将提示词 粘贴进来,点击关闭后即可使用。
6.2. 打开折叠面板
正常思考会很长,可以选择将代码块折叠打开,不会占用太多排版。