DeepSeek + Cherry Studio 搭建本地私有知识库!

在这里插入图片描述

一、快速入门
1. 什么是知识库和解决什么问题?

知识库(Knowledge Base)是一个存储和管理知识的系统,通常包含结构化和非结构化的信息,用于帮助用户或系统快速查找和获取相关知识。

你可以把它想象成一个“知识仓库”,里面存放着各种有用的信息,比如文档、常见问题解答(FAQ)、数据库、规则、案例等。

解决问题: 可以解决大模型撰造知识和幻觉的问题。

举个栗子:

假设你是一家公司的客服人员,客户问你一个关于产品的问题。
如果你有一个完善的知识库,你可以直接在知识库中搜索相关产品的使用说明或常见问题解答,快速找到答案并回复客户。
如果没有知识库,你可能需要去问同事或查找一堆文档,效率会低很多。
那说到知识库,这里我们又不得不提到另外一个词——RAG.

然后,问题又来了,那么…

2. 什么是RAG?

RAG(Retrieval Augmented Generation,检索增强生成)是一种让大语言模型(LLM)变得更聪明的方法。

简单来说,它通过给模型提供一个外部的“知识库”,让模型在回答问题时可以“查资料”,从而给出更准确、更相关的答案。

举个栗子:

想象一下,大模型就像一个学生,而RAG系统就是一本字典。
当学生遇到不懂的问题时,他可以翻开字典查找相关的解释,然后再根据字典里的内容回答问题。
这样,学生不仅能回答得更准确,还能避免“瞎编”答案。
那么,当大模型遇到不懂的问题时,他也可以查字典,也就是RAG系统。

3. 为什么需要RAG?

**大模型的知识有限:**大模型的知识主要来自它训练时用的数据,而这些数据是有限的,尤其是企业内部的业务知识或产品信息,模型可能完全不了解。
**微调成本高:**如果想让大模型学习企业特定的知识,通常需要微调模型,但这不仅成本高,而且效果也不一定好。
**幻觉问题:**大模型在不熟悉的领域可能会“瞎编”答案,这在企业应用中是不可接受的,尤其是那些需要准确信息的场景。

4. RAG 的运作流程图

这里,我先贴出一个 RAG 的运作流程图。
在这里插入图片描述
从文档处理角度来看,实现流程如下:
在这里插入图片描述

5. 搭建步骤概览

如何用DeepSeek + Cherry Studio在本地搭建私有知识库。

在这里插入图片描述

具体搭建实操步骤
步骤一: 下载Cherry Studio可视化工具
不懂怎么操作的先去看这篇文章

步骤二: 部署DeepSeek模型 + Embedding模型
那么,这里又分为两种方式

方式一: 下载去官网下载Ollama工具

  • 好处: 可以实现本地部署DeepSeek模型 + Embedding模型,免费

  • 坏处: 需要一定的电脑配置才行,不然模型就很鸡肋

方式二: 注册硅基流动账号

  • 好处: 不用本地部署

  • 坏处: 调用云端的模型服务需要一定的费用,但是也不贵。

方式三: 注册DeepSeek账号

  • 好处: 不用本地部署

  • 坏处: 调用云端的模型服务需要一定的费用,但是也不贵。

今天我们重点介绍的是第二种方式———硅基流动+Cherry Studio 搭建本地私有知识库。

二、CherryStudio下载和安装
2.1. CherryStudio下载

在这里插入图片描述

2.2. CherryStudio安装

在这里插入图片描述

2.3. CherryStudio 集成 DeepDeek API(在线)

在这里插入图片描述

模型标识 模型名称
DeepSeek Chat DeepSeek V3
DeepSeek Reasoner DeepSeek R1

Deepseek官网:https://api-docs.deepseek.com/zh-cn/quick_start/pricing
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.4. DeepSeek 服务体验

在这里插入图片描述

2.5. DeepSeek 模型切换

点击顶部模型名称,弹出模型列表,选择已配置模型即可,
这里演示DeepSeek R1 模型切换为DeepSeek V3模型
在这里插入图片描述

在这里插入图片描述

三、CherryStudio 通过硅基流动 集成DeepSeek
3.1. 注册硅基流动账号
https://cloud.siliconflow.cn/i/MtLRYuAc

在这里插入图片描述

3.2. 生成API密钥

在这里插入图片描述

3.3. 配置API密钥

输入API密钥后->点击检查->从模型列表中【选择R1模型】
在这里插入图片描述

打开服务开关
在这里插入图片描述

3.4. 体验DeepSeek服务

在这里插入图片描述

四、CherryStudio集成本地Ollama部署的DeepSeek

基于本地部署DeepSeek + Ollama 小白也能轻松搞定!

4.1. 配置本地Ollama DeepSeek

选择Ollama-打开服务开关
在这里插入图片描述
点击【管理】后选择模型点击+

在这里插入图片描述
在这里插入图片描述

4.2. 切换模型选择本地Ollama DeepSeek R1

从模型列表中,有3个厂商的模型服务,选择Ollama厂商的DeepSeek R1服务。
在这里插入图片描述

4.3. 体验本地DeepSeek 服务

在这里插入图片描述

五、私域知识库搭建
5.1. 添加DeepSeek推理模型

点击底部的 【管理按钮】,在模型管理服务中查找模型,点击【全部】默认就能看到;
找到需要的模型,点击右侧【+】添加到我的模型。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

5.2. 创建知识库

知识库入口:在 CherryStudio 左侧工具栏,点击知识库图标,即可进入管理页面;
添加知识库:点击添加,开始创建知识库;
命名:输入知识库的名称并添加嵌入模型,以 BAAI/bge-m3 为例,即可完成创建。
在这里插入图片描述

5.3. 添加文件并向量化

添加文件: 点击添加文件的按钮,打开文件选择;
选择文件: 选择支持的文件格式,如 pdf,docx,pptx,xlsx,txt,md,mdx 等,并打开;
**向量化:**系统会自动进行向量化处理,当显示完成时(绿色 ✓),代表向量化已完成
在这里插入图片描述

5.4. 添加多种来源的数据

Cherry Studio 支持多种添加数据的方式:
这里只是说明可以支持很多格式和方式对接,自己尝试一下吧。

文件夹目录: 可以添加整个文件夹目录,该目录下支持格式的文件会被自动向量化;
网址链接: 支持网址url,如:https://www.xiaoerpro.com/;
站点地图: 支持xml格式的站点地图,如:https://www.xiaoerpro.com/sitemap.xml;
纯文本笔记: 支持输入纯文本的自定义内容。
**向量化:**当显示绿色 “√” 表示向量化完成,点击 探索知识库按钮即可开始查询

在这里插入图片描述

5.5. 搜索知识库

当文件等资料向量化完成后,即可进行查询:

点击页面下方的搜索知识库按钮;

  • 输入查询的内容;
  • 呈现搜索的结果;
  • 并显示该条结果的匹配分数。

在这里插入图片描述

5.6. 输入关键词搜索知识库

比如,这里我输入:”申请解除合同,应提供资料有哪些?“

申请解除合同,应提供资料有哪些?

在这里插入图片描述

5.6. 对话中引用知识库生成回复

创建一个新的话题,在对话工具栏中,点击知识库,会展开已经创建的知识库列表,选择需要引用的知识库;
输入并发送问题,模型即返回通过检索结果生成的答案 ;
同时,引用的数据来源会附在答案下方,可快捷查看源文件。
在这里插入图片描述
在这里插入图片描述

六、优化
6.1. 添加提示词

然后,为了更好的使用知识库,

我们还可以再新建一个 助手 下面需要填写 提示词,

提示词太长,我把链接地址放下面,自己去复制即可。

知识库提示词

https://github.com/richards199999/Thinking-Claude/blob/main/model_instructions/v5.1-extensive-20241201.md

在这里插入图片描述
在这里插入图片描述
这里的prompt复制后,在对应的对话界面的提示词中粘贴即可。
在这里插入图片描述
将提示词 粘贴进来,点击关闭后即可使用。

6.2. 打开折叠面板

正常思考会很长,可以选择将代码块折叠打开,不会占用太多排版。
在这里插入图片描述