一、什么是DeepSeek
DeepSeek(深度求索)是一家专注于通用人工智能(AGI)技术研发的中国公司,位于中国杭州。成立于2023年,由其母公司幻方量化创立并投资,创始人是梁文锋。
DeepSeek自成立起,就放弃做追随者,致力于大模型创新。它的故事就是一系列开源产品的发布,2年期间它们已经做出:
- DeepSeek Coder (2023年11月2日) :专注于代码生成与理解,架构类似Llama。
- DeepSeek LLM (2023年11月29日):通用大语言模型,通过监督微调提升多任务处理能力。
- DeepSeek-MoE(2024年1月9日):引入混合专家架构(Mixture of Experts, MoE),提升模型效率。
- DeepSeek-Math(2024年4月):专攻数学推理,通过分组相对策略优化(GRPO)强化训练。
- DeepSeek V2(2024年5月):采用多头潜在注意力(MLA)和MoE架构,支持128K长上下文。
- DeepSeek V3(2024年12月):基于V2架构扩展,参数量达671亿,进一步优化多任务处理能力。
- DeepSeek R1 (2025年1月20日):专注逻辑推理与实时问题解决,参数规模与V3一致(671亿)。
二、DeepSeek可以做什么
直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考,同时支持文本上传,能够扫描读取各类文件及图片的文字内容。
三、DeepSeek为什么会成功?
媒体经常把deepseek的成功塑造成一个奇迹,就像是天降神兵一样。但在科技竞争激烈的今天,没有什么成功是随随便便的,DeepSeek不是一个“副业”,而是一群有理想、有实力的人做出的惊叹作品。
它的成功有以下4个原因:
(1)技术突破,实现低成本高成效。 DeepSeek 的核心竞争力,在于用“精准激活”替代“暴力堆料”。通过Multi-Token Prediction(MTP)和Multi-Head Latent Attention(MLA)等原创技术,DeepSeek大幅降低了计算资源需求,将每次推理所需的 KV 缓存减少 93.3%,相当于原本需要 100 度电才能完成的任务,现在只需 6.7 度电。这种技术像“节能灯”一样,只在需要的区域点亮算力,而非全盘激活。
更令人惊叹的是 R1 模型 ,通过纯深度学习的自发涌现能力,在数学和编程任务中达到顶尖水平,甚至超越 Claude 3.5 Sonnet,而推理成本仅为后者的 1/50210。这背后是多阶段训练法的革新:用规则奖励替代人工标注,砍掉冗余环节,将训练成本压缩至 OpenAI 的 1/20。
此外,它的 V3 模型性能已接近 GPT-4o,但成本仅需 600 万美元(预训练阶段),而 OpenAI 同类模型的训练成本高达数亿美元。
(2)硬件提前布局。 DeepSeek的母公司是幻方量化。它是一家中国对冲基金,也是最早在其交易算法中采用 AI 的先行者。他们早早就意识到 AI 在金融以外领域的潜力以及扩展能力的重要性,因此不断增加 GPU 的供应。早在2021 年任何出口限制出台之前,就囤积 1 万块 A100 GPU;
此外,为了让DeepSeek进一步发展,幻方量化2023 年就将其分拆独立出去 ,并且为其构建了 5 万块 GPU 的超级集群(用的是 H800(算力等同 H100)和 H20(高带宽版)合规芯片)。
这种布局使其在算法突破时能快速验证。
(3)组织模式:极客驱动的“特种部队”。 DeepSeek 的团队像一支“算法特种部队”:。它们的人才,来自于北大、浙大等顶尖高校,提供 130 万美元年薪(约 934 万人民币),远超国内同行; 它们总共150 人小团队+无官僚层级,让它们的决策和反应,远高于大公司,且这些高精尖人才可无限制调用超 1 万块 GPU。它们还自建数据中心,掌控全技术栈,避免外部依赖。
这种“小而精”的模式,让 DeepSeek 能像初创公司一样敏捷,却拥有巨头级的算力资源。
(4)开源免费策略。 在DeepSeek之前,最好的大模型是以ChatGPT、Claude、豆包等为的闭源大模型。普通人只能使用,无法知道它背后的实现。而同期的开源大模型,如LLama,Qwen更多用在特定领域,整体给人的感觉与第一梯队的ChatGPT有差距。但是DeepSeek完全改变此现象。原来开源也能如此好用。此举,让大量普通人也来使用和传播DeepSeek,让DeepSeek成为现象级产品。
四、DeepSeek的影响
DeepSeek如此成功,产生的影响也是不可估量。
推动了大模型开源进程,作为鲶鱼,让全球大模型竞赛进一步提速。
五、DeepSeek面临什么问题?
虽然DeepSeek取得重大突破,国家和人民都在关注,表面一切欣欣向荣。但所谓树大招风,何况DeepSeek也会触及到一些企业利益。所以反噬和竞争会接踵而至。
第一,硬件问题仍然是卡点。
DeepSeek的核心突破在于“用算法换芯片”:其创新的动态计算技术,让同等算力下模型训练效率提升数倍。这相当于用“战术创新”打破了传统算力竞赛的僵局。但算法优势有天花板。随着DeepSeek的进一步发展,芯片不够的问题还是会出现,在全球封锁的今天,依然需要依赖和期待国内芯片的发展。
第二,来自美国的反击。
DeepSeek估计会面临与华为一样的国际封锁。
不管是OpenAI第一时间的蒸馏指控,还是这几天持续的ddos攻击,以及各级美国政府部门强调来自DeepSeek的威胁,都表明来自美国的反击会持续加剧。
第三,人才面临国内大厂和硅谷大厂挖角。
DeepSeek出名之后,整个团队都会成为其他竞争对手高薪“挖掘”的目标。deepseek团队只有150多人,如果最顶级的都被挖了,后面影响还是很大的。罗福莉已经被小米挖走,据说是1000万的年薪。接下来,人才的走与留,是DeepSeek需要处理好的问题。好在DeepSeek现在太过出名,对于需要有理想有技术的人是有吸引力的。
六、如何安装使用DeepSeek?
你可以通过两种方式访问DeepSeek。直接访问电脑版:https://www.deepseek.com;或者在手机应用商店搜索“DeepSeek”下载安装。
DeepSeek的界面与一般大模型相差不大。重点在其深度思考和联网搜索功能。选择「深度思考」,大模型在回答之前,会自行推理问题的方方面面 ,使得结果更加可靠和准确。选择「联网功能」,大模型会先全网搜索再回答。可以获得最新发生信息。
七、如何正确提问deepseek?
网络上盛传许多deepseek技巧,比如说:“直接提需求,而不是给指令”;或者什么“赛博人格分裂”、“阴阳怪气模式”,甚至还有人根据每一个行业就出一套提问词。这些方法真的是有效的吗?
我们还是来看官方例子。下面这个例子,清晰的展示了:问deepseek还是可以给指令。
并且我还主动问deepseek:**该如何给它指令?**以下是它的回答:
总结这些点,我们不难得出:要想要deepseek更好地回答,关键就是清晰说出你的需求。如果你越清楚自己想要什么,deepseek就能更好地帮助到你。
明白了用好deepseek的关键是需求清晰。那么如何才能需求清晰呢?除了自己头脑清晰,文字表达准确,你还可以做这两件事:
第一,元提问,让deepseek自己给出需求清晰的提示词。比如,下面这个来自官网的例子,就是很好的示范。
第二步,告诉deepseek,你输出的结果是给谁看的。比如添加上「说人话」、「给小孩听的」、「给领导汇报」等。
比如下面这个例子,同样问deepseek:“什么是通货膨胀?”,我分别加上「说人话」、「学术研究」、「小孩听得懂」,它给出的答案为什么不同。你自己体会它们的差别。
- 说人话
- 学术回答
- 小朋友能听懂
总的来说,你想要更好用deepseek,只需做到:需求清晰+读者身份清晰。你就大概率能获得满意答案。
八、deepseek如何本地部署?
deepseek突然火爆,加之来自海外的DDos攻击,导致它算力不足。我们最近在使用时,还会经常遇到模型崩溃的问题。于是许多人掀起一场“本地化自救”–在本地部署deepseek。有的人在本地部署之后,期望像官网一样,却发现效果相差很远。为什么会这样?
因为本地部署的开源模型,参数规模集中在1.5B-7B区间(例如deepseek-r1-1.5b、deepseek-r1-7b),而云端服务实际调用的是千亿级参数模型。它们的推理能力,长文生成能力都不是一个量级。不仅如此,受限于本地显存,本地运行大模型会非常慢,使用效率大打折扣。
本地部署大模型,最大的意义是让你学会使用最新开源工具,发现别人还未曾发现的商机。在开源风潮是趋势,且有AI强大助力的情况下。本地部署开源项目,体验最新科技发展,越来越简单,也越来越重要。你可借此机会学习起来。
部署deepseek总共有4步:
第一步,安装Ollama。 Ollama是一个大模型运行工具,它制定了开源大模型的下载和运行规范,用它能下载运行各大开源大模型,deepseek也一样。访问官网:https://ollama.com/,下载即可。
第二步,下载DeepSeek。 先在Ollama界面搜索deepseek-r1
,选择适合硬件配置的版本(如1.5b或7b),复制命令。
第三步,打开本地命令行窗口(不懂的直接问AI吧,很简单),执行复制到的命令。它就会自动下载deepseek(如果本地已经下载过它就会直接运行),此后每次在本地运行大模型也是同样步骤。
第四步,安装chatbox AI。这一步可选,如果你觉得不习惯命令行窗口,想要对话窗口;那可以下载chatbox AI:https://chatboxai.app/zh,它提供了各种大模型的对话窗口。
九、deepseek崩溃了怎么办?
上节提到deepseek崩溃了不适合本地部署,真正的解决方法是选择线上平替。因为deepseek是开源模型,有许多有实力的厂家已经将deepseek 671B满血版部署上了,你直接用就可以,其中许多还是免费的。总共有10种方法,分别是:硅基流动、秘塔AI搜索、英伟达、国家超算互联网、perplexity AI、poe、Groq、Lambda.chat、Cursor、官方API。
具体细节,可以看我这篇文章:“DeepSeek崩溃了别慌!10个代替方案,亲测有效(附不同方案对比)”。总的建议:如果你在国内,建议使用硅基流动或者秘塔AI,如果你在海外,建议使用perplexity AI或Lambda.chat。
十、普通人如何抓住DeepSeek机遇?
AI革命的本质,是让每个人多了一个“数字分身”。DeepSeek的价值,不在于替代人类思考,而在于成为普通人的“能力杠杆”。
我们每一个人,在遇到历史级别的机遇时,要躬身入局。
你要学会站在技术扩散的前排。 不必看懂代码,但要看懂趋势:当朋友圈开始刷屏AI产品时,立即注册试用;时刻关注技术突破的“实用半径”,比如新发布的API能优化客服?自动化报表?先动手测试。
你要学会和AI“说话”。 开始在日常生活中,把问题丢给AI;开始学会用AI听得懂(AI提示词)的方式与它交流。
你要学会成为行业接线员。 把你的专业经验和DeepSeek结合起来,这会创造新商业模式。比如房产中介用AI生成个性化房源视频,转化率翻倍。不用担心你比别人晚,即使你今天才开始用DeepSeek,你仍然领先于99%的人。DeepSeek才刚开始,它正等着各行各业的人才,去拿着它应用到每一片土地之上。
正所谓,AI消灭的是“信息中间商”,奖励的是“价值连接者”。 当技术民主化的浪潮袭来,普通人真正的护城河是:比算法更懂人间烟火,比机器更会解决问题。
今天就用DeepSeek写一份周报,体验人机协作的最小闭环吧。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。