【DeepSeek探索篇(四)】高效学习与工作,从搭建DeepSeek个人知识库开始!

打工人和学习者必看!你为何急需一个个人知识库?

在日常忙碌的工作与学习中,相信不少CSDN的小伙伴都和我一样,积累了海量的文档、代码片段、学习笔记等资料。但这些资料就像没有整理的仓库,一旦需要查找,往往在里面翻来覆去,浪费大量时间和精力。

别愁!今天给大家带来一个好方法,利用DeepSeek就能快速搭建个人专属的知识库。它能带来哪些惊喜呢?

集中管理:从此告别资料散落在各个角落的烦恼,将所有资料统一收纳,一个地方全搞定。
快速检索:智能搜索功能超强大,输入关键词,就能精准定位你需要的信息。
高效学习:结构化的存储方式,让知识体系一目了然,大大提升学习和工作的效率。

快来一起探索DeepSeek搭建个人知识库的奇妙之旅吧!

搭建个人知识库需要用到哪些技术呢?

在大模型应用的过程中,“幻觉问题”一直是令人头疼的存在。简而言之“幻觉问题”就是大模型在回答他不知道的问题的时候他会

胡说八道,他会乱编。而模型微调与RAG技术,都在尝试为其提供解决方案,下面我们就来深入了解一下。

一、模型微调与RAG技术简介

  • 模型微调:它就像是考前复习,基于已有的预训练模型,结合特定任务的数据集进一步训练,让模型在该领域的表现更加出色。
  • RAG技术:全称为Retrieval-Augmented Generation(检索增强生成)。它就像是考试时带小抄,在生成回答前,通过信息检索从外部知识库中查找与问题相关的知识,增强生成过程中的信息来源,从而提升生成内容的质量和准确性 。
  • 两者共同点:二者的核心目的都是为模型赋予特定领域的知识,有效解决大模型的“幻觉问题”。

二、RAG技术原理剖析

  1. 检索(Retrieval):当用户提出问题,系统会快速从外部的知识库中检索出相关内容。
  2. 增强(Embedding):将检索到的信息与用户输入进行结合,拓展模型的上下文信息,为后续的生成提供更丰富的素材。
  3. 生成(Generation):以Deepseek等生成模型为基础,基于增强后的输入生成最终回答。由于参考了外部知识库,答案的准确性和可信度更高。

对于在大模型开发与应用中探索的CSDN朋友们,理解RAG技术及其与模型微调的区别,有助于我们更好地优化模型表现。

揭秘Embedding:为何它是DeepSeek和RAGFlow之外的必备利器?

在AI技术的应用中,除了DeepSeek和RAGFlow,Embedding模型也扮演着关键角色。接下来,我们就来详细了解一下Embedding的奥秘。

三、检索过程全解析

1、准备外部知识库

外部知识库来源广泛,包括本地文件、搜索引擎结果、API等多种渠道。

2、解析知识库文件

借助Embedding(嵌入)模型,能够将自然语言转化为机器可理解的高维向量,同时捕获文本背后的语义信息,比如不同文本间的相似度关系。

3、处理用户提问

用户的输入同样会经过Embedding处理,生成一个高维向量。

4、匹配本地知识库

利用用户输入生成的高维向量,查询知识库中的相关文档片段,并通过余弦相似度等度量方式判断相似度。
在这里插入图片描述

四、模型分类简介

模型主要分为Chat模型和Embedding模型。Embedding模型的核心作用,就是对上传的附件进行解析,将文本数据转化为向量

数据,从而便于机器处理和分析。

五、如何进行个性化知识库的构建?

手把手教你用Docker本地部署RAGflow

在利用RAG技术搭建个性化知识库时,RAGflow是一个得力工具。下面为大家介绍如何通过Docker在本地部署RAGflow。

1、下载RAGflow源代码

首先,找到RAGflow的官方代码仓库,按照指引下载其源代码。这是后续部署的基础。
链接:RAGFlow
可以直接用git克隆下来
如果没有安装git也可以直接点Download ZIP,下载到本地。
在这里插入图片描述

2、下载Docker

Docker是一个强大的容器化平台,其镜像就像是一个精心封装好的“盒子”,里面包含了运行RAGflow所需的所有依赖项、库以及配置。

在下载安装Docker的过程中,如果遇到报错也别慌,可以通过搜索引擎查找相关报错信息,或者向GPT等AI工具寻求帮助。

要是出现镜像无法下载的情况,不妨尝试修改Docker的镜像源,换个“通道”,说不定就能顺利拉取镜像了。

按照这些步骤,你就能更轻松地在本地部署RAGflow,开启你的个性化知识库搭建之旅啦。
docker官网链接:docker
选择对应的去下载即可
在这里插入图片描述
下载完成后桌面会有一个docker图标,也可以win+R打开控制台输入docker,弹出如下说明也表示安装完成了。
在这里插入图片描述
在这里插入图片描述

3、修改RAGflow中的配置

原因:如果不修改配置RAGflow会默认给你下载轻量的版本,可以看到如下轻量的版本是没有Embedding模型的
在这里插入图片描述
在下载好的ragflow的源代码中打开.env的文件
在这里插入图片描述
把RAGFLOW轻量版注释掉

#RAGFLOW_IMAGE=infiniflow/ragflow:v0.16.0-slim

把RAGFLOW完整版取消注释

RAGFLOW_IMAGE=infiniflow/ragflow:v0.16.0

在这里插入图片描述

4、使用预构建的 Docker 镜像启动服务器

在下载ragflow路径下的docker中打开控制台输入:

docker compose -f docker-compose.yml up -d

在这里插入图片描述

5、打开一个网页输入,成功看到如下界面说明启动成功了。注册登录即可

localhost:80

在这里插入图片描述

6、利用RAGflow搭建个人知识库并实现智能对话

在通过Docker成功部署RAGflow后,就可以着手构建个人专属的知识库,并实现基于该知识库的对话问答啦。以下是详细步骤:

  1. 访问RAGflow:当Docker顺利启动,打开浏览器,在地址栏输入localhost:80,即可进入RAGflow界面。

  2. 添加模型提供商:在界面中找到“模型提供商”选项,添加本地部署的deepseek-r1:1.5b模型。
    注意:若大家还没有本地部署deepseek大模型的话可以参考博客:一步一步搞定!DeepSeek本地环境搭建全攻略
    在这里插入图片描述
    本地部署好deepseek’模型后,控制台输入ollama list可以查看本地部署的模型
    在这里插入图片描述
    控制台输入ipconfig,查看自己电脑的ipv4的地址
    基础的Url:http://+本地ipv4地址+:11434(ollama默认的端口号),如下图:
    在这里插入图片描述

  3. 配置系统模型:进入“系统模型设置”,分别配置Chat模型为deepseek-r1:1.5b,Embedding模型使用RAGflow自带的即可。
    在这里插入图片描述

  4. 创建并解析知识库:点击创建知识库,上传所需文件,让系统对文件进行解析处理。
    在这里插入图片描述
    在这里插入图片描述

  5. 创建聊天助理:着手创建聊天助手,过程中注意prompt(提示词)和tokens(令牌)的合理配置。
    在这里插入图片描述

  6. 开始对话:完成上述步骤,就可以开始和基于个人知识库的聊天助手愉快对话,就可以通过不断的喂数据来训练自己搭建的知识库啦。

  7. 在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_43533553/article/details/145863311
今日推荐