4954 字
25 分钟
DeepSeek 技术演进:从 V1 到 V4 的架构突破
  • 2026-05-23 DeepSeek-V4-Pro 正式宣布其永久定价:百万输入3¥,百万输出6¥,百万输入缓存命中0.025¥ 2026-05-23——DeepSeek-V4-Pro定价

让我们一起回到 2024 年初,AI 圈硝烟弥漫:OpenAI 的 GPT 系列一骑绝尘,Meta 的 LLaMA 系列统治开源社区,大多数团队都在微调现有模型,而真正敢从零预训练大模型的团队寥寥无几——高昂的成本、未知的风险,让大多数人望而却步。DeepSeek 团队正选择了一条艰难的路。

本文将系统梳理 DeepSeek 从 V1 到 V4 的完整技术演进路线,近可能的把每一次架构突破的动机方案效果讲清楚。


背景:梁文峰与幻方科技#

故事的主角是梁文峰,1985 年生,来自广东湛江,父母都是老师。他从小在数学上展露出过人天赋——初中就自学完高中数学,开始钻研大学微积分。2002 年,17 岁的他以当地高考状元的身份考入浙江大学。

转折点出现在 2008 年全球金融危机。正在攻读硕士的梁文峰敏锐地察觉到:传统投资策略的失效,恰恰是机器学习可以切入的机会。他带领团队探索用 AI 预测市场走向,开发出国内较早的量化交易模型。2010 年毕业时,这个模型已经为他赚到了人生的第一桶金。

后来他创办了幻方科技,这家公司逐步成为量化投资界的知名机构。当 2023 年 ChatGPT 火爆全球时,梁文峰做了一个决定——将目光投向通用人工智能,创立了 DeepSeek

幻方手中握着一张关键的王牌:

  • 萤火一号(2019 年):耗资约 2 亿元,自主研发的超算集群
  • 萤火二号(2021 年):投入约 10 亿元建造,规模相当于一个篮球场,搭载约 1 万张英伟达 A100 显卡

这套原本用于量化交易的算力系统,后来成为 DeepSeek 最坚实的后盾。量化出身的团队对成本效率有着天然的敏感——这种基因贯穿了 DeepSeek 所有技术决策。


DeepSeek V1:从缩放定律开始#

核心问题:数据、模型、算力的关系#

幻方决定从头训练,要亲自验证开源模型的上限到底在哪里。于是 DeepSeek LLM(V1 版本)诞生了,其论文标题里甚至带着一个关键的字眼:长期主义

V1 做了一件非常硬核的事:没有盲目堆数据,而是先研究缩放定律(Scaling Laws)——即 模型大小数据量计算力 三者之间的关系。

此前学界的研究结论并不统一,有的说数据更重要,有的说模型更大更好。DeepSeek 团队决定亲自算一遍。通过大量实验,他们发现:

  • 不同数据集的缩放定律表现不同。高质量的数据能让模型更小,但性能更强。

基于这个发现,他们构建了 2 万亿 token 的高质量数据集

V1 的模型规模:7B 与 67B#

V1 同时推出了 7B 和 67B 两个版本的基座模型。67B 在当时是一个关键的选择:当时开源社区的王者 LLaMA 2 正好就是 70B,DeepSeek 67B 敢不敢碰一碰?结果令人惊喜: DeepSeek 67B 在代码能力 超越 LLaMA 2 70B,在数学推理也能 取得优势

V1 的对话能力:SFT + DPO#

光有基座模型还不够,用户需要能对话的助手。V1 进行了监督微调(SFT),还引入了 DPO(Direct Preference Optimization,直接偏好优化),让模型更懂人类的意图。

在开放式评测中,DeepSeek 67B 聊天版本的表现甚至超过了 GPT-3.5。但 V1 团队清楚:架构上还是传统的 Transformer,随着模型变大,推理成本会急剧上升,显存占用越来越大,速度越来越慢。要让大模型真正普及,必须解决效率问题。于是他们把目光投向了更深层的架构创新。


DeepSeek V2:架构革命—— MoE + MLA#

2024 年中,大模型竞赛进入白热化。DeepSeek 团队发现:单纯堆参数的边际效应在递减,而且推理成本高到普通开发者根本用不起。他们给出的版本答案是 MoE(混合专家模型)

MoE 的核心思想#

MoE 的核心是术业有专攻

  • 传统模型:处理每个 token 都要动用所有参数,就像一家公司不管遇到什么小事,都要所有员工一起开会决定——效率极低
  • MoE 模型:把模型分成很多个”专家”,每次来一个任务,通过路由网络去判断需要哪几个专家处理,只有少部分参数被激活,大部分在”休息”

MoE混合专家模型的好处显而易见:在总参数量很大(保证知识容量)的同时,每次计算激活的参数量较少(保证推理速度)。

但传统 MoE 也有两个缺点:

  1. 通信开销大:专家可能分布在不同显卡上,数据传来传去,时间浪费在路上
  2. 负载不均衡:有的专家累死,有的专家闲死

DeepSeek V2 正是为解决这些问题而来的。

V2 的参数规模#

指标数值
总参数数量2360亿(236B)
平均每次激活参数量210亿(21B)
效果拥有千亿模型的智力,却只有百亿模型的计算成本

创新一:细粒度 MoE (DeepSeekMoE)#

传统 MoE 的专家粒度比较粗,V2 就把专家切分得更细。细粒度的专家能更精准地捕捉知识。同时他们也会隔离出一部分共享的通用专家——这些通用专家每次都会被激活,保证模型的基础能力不会丢失。 为了解决负载不均衡,V2 设计了设备限制路由(Device-Limited Routing):限制每个 token 只能发送到有限数量的设备上,既保证了专家的专业性,又控制了通信成本。

创新二:MLA (Multi-head Latent Attention)#

这是 V2 最亮眼的创新之一。 问题:Transformer 模型在生成文本时需要缓存 Key 和 Value 矩阵(即 KV Cache)。随着生成长度增加,KV Cache 会占用大量显存,限制了上下文长度和并发量。传统优化方法(GQA、MQA)虽然减少了 KV Cache,但往往也伴随着性能的牺牲。 MLA 的做法:对 Key 和 Value 进行低秩联合压缩。简单说,就是把庞大的 KV 矩阵压缩成一个很小的潜在向量(Latent Vector),推理时只缓存这个潜在向量,等到需要计算注意力时再还原回来。

指标变化
KV Cache 大小减少 93.3%
性能不仅没有损失,多项基准测试中甚至优于标准 MHA 架构

同样的显存,可以处理更长的上下文,或服务更多的用户。

V2 综合效果#

  • 在两项数学测试中超越 LLaMA 3 70B
  • 训练成本降低 42.5%
  • 生成吞吐量提升 5.76 倍
  • 训练数据:8.1T 高质量 token,中文数据比例有所提升

这对开源社区是个巨大的福音:高性能不再意味着高门槛。


DeepSeek V3:突破 6710 亿参数#

V2 虽然高效,但面对 GPT-4 这样的闭源巨头,开源模型需要更强的底气。于是 V3 的目标是 6710 亿参数,全面对标顶尖闭源模型。

但如果只是简单放大,训练成本将是天文数字。DeepSeek 必须在有限预算内完成这个庞然大物的训练。

技术突破一:FP8 混合精度训练#

传统大模型训练主要用 BF16 或 FP32 精度。FP8 计算更快、显存占用更少,但动态范围小,容易导致训练不稳定,很多团队尝试过、但往往以失败告终。

V3 攻克了这个难题,设计了一套细粒度量化策略

  • 激活值:按 1×128 的 tile 进行分组缩放
  • 权重:按 128×128 的 block 进行分组缩放
  • 累加精度提升:在 Tensor Core 进行矩阵乘法时,中间结果用低精度,但累加时 promotion 到高精度在 CUDA Core 进行,解决了低精度累加带来的误差累积问题

得益于 FP8 训练,V3 的训练速度大幅提升,显存占用显著降低,使得训练 6710 亿参数的模型成为可能。

技术突破二:多 Token 预测(MTP)#

传统语言模型一次只预测下一个 token。V3 在训练时不仅预测下一个 token,还预测下下个 token,增加了训练信号的密度,模型能更好地规划未来的表示。

推理时,这个多 token 预测模块可以用于投机采样(Speculative Decoding),进一步加速推理。实测显示解码速度提升了 1.8 倍

技术突破三:无辅助损失的负载均衡#

传统 MoE 的负载均衡方法是用辅助损失函数强迫模型平衡负载,但这会干扰主任务的学习,影响性能。

V3 提出了一种新方法:给每个专家引入一个偏置项(Bias)

  • 如果某个专家过载 → 减少偏置
  • 如果某个专家欠载 → 增加偏置

不需要辅助损失,就能实现负载均衡。实验证明,这种策略比传统辅助损失方法性能更好。

工程创新:DualPipe 并行#

在基础设施方面,V3 设计了 DualPipe算法,一种双向流水线并行策略,能更好地重叠计算和通信。对于跨节点的 AllToAll 通信,他们定制了更高效的 Kernel,充分利用了 InfiniBand 和 NVLink 的带宽。

这些工程优化使得 V3 的训练极其稳定——整个训练过程中没有出现不可恢复的 Loss 尖峰,也没有进行过任何回滚。

V3 的训练成本#

指标数值
总算力消耗2.788M H800 GPU 小时
折合成本557.6 万美元
对比 GPT-4 训练成本据传 GPT-4 训练成本高达 1 亿美元

V3 性能表现#

基准结果
MMLU88.5 分,超越所有开源模型
LiveCodeBench表现最好的开源模型
代码与数学表现出色,中文能力展现本土优势

V3 的发布标志着开源模型进入了新阶段:通过架构创新和工程优化,开源模型可以在性能上媲美闭源模型,同时保持极高的性价比


DeepSeek R1:强化学习激活推理能力#

V3 很强,但有个核心痛点:面对复杂的数学题或代码调试,模型倾向于”直觉反应”,缺乏深度思考过程,无法像人类专家一样一步步推导、自我验证。

从 SFT 到强化学习#

以前的方法是靠监督微调(SFT):人类写好推理步骤,让模型模仿。但这种方法有局限:

  • 人类的推理步骤未必是最优的
  • 标注成本太高

R1 选择了完全不同的路:使用强化学习,直接激励模型自发产生推理能力。

R1-Zero:纯强化学习的涌现#

这是一个实验性模型,没有任何 SFT,直接基于基座模型进行纯强化学习训练。奖励信号非常简单:

模型怎么思考我不管,只要答案对就给奖励。

神奇的事情发生了。随着训练的进行,模型自发地产生了复杂的推理行为:(详见PPO章节的讲解)

  • 学会了自我反思
  • 学会了验证步骤
  • 学会了遇到死胡同时回溯并尝试新路径

在训练日志中,研究人员观察到了一个”顿悟时刻”:模型开始频繁使用”等等,让我重新检查一下”这样的词汇——这标志着模型内部形成了某种监督机制

AIME 2024 数学竞赛测试结果

方法通过率
R1-Zero77.9%(从 15.6% 飙升)
R1-Zero + 自一致解码86.7%
大多数人类参赛者低于此水平

完整版 R1:多阶段训练#

DeepSeek 推出了完整的 DeepSeek R1,采用多阶段训练:

  1. 冷启动数据:收集少量包含人类思维链的数据,让模型学会基本的对话格式
  2. 强化学习训练:使用 GRPO算法(一种高效的强化学习算法)
    • 准确性奖励:答案正确给奖励
    • 格式奖励:推理过程必须放在特定标签内,方便后续分析
  3. SFT 扩展通用能力:加入非推理数据(写作、问答等),让模型不仅会做题,还会聊天

R1 的性能表现#

基准成绩
AIME 202479.8% 通过率
Codeforces 编程竞赛超越 96.3% 的人类选手
数学、代码、科学推理达到业界顶尖水平

知识蒸馏:让小模型也会深度推理#

R1 的推理能力可以”传递”。DeepSeek 团队利用 R1 生成的数据,训练了一系列小模型:

  • 蒸馏的 1.5B、7B 版本,性能远超同尺寸的传统模型
  • 强大的推理能力不再需要巨大的算力,手机端、边缘端都有可能运行具备深度思考能力的模型

R1 验证了一个重要假设:

推理能力是可以被激励出来的(RL强化学习)。不需要人类手把手教,只要给对奖励,模型自己能找到最优的解题路径。


DeepSeek V3.2:面向 Agent 的全面进化#

站在 V3 和 R1 的肩膀上,DeepSeek V3.2 应运而生。V3.1 主要验证了长上下文扩展能力,而 V3.2 不仅仅是语言模型的升级——它是面向 Agent、面向复杂任务处理的全面进化

架构创新:DSA 稀疏注意力#

随着上下文变长,注意力机制的计算复杂度是平方级增长,这限制了长文本处理。

  • DSA(DeepSeek Sparse Attention) 通过高效的稀疏机制,大幅降低了计算复杂度:保留对关键 token 的关注,忽略无关信息,使得模型在长上下文场景下依然保持高效。

V3.2 的上下文长度稳定支持 128K,意味着它可以一次性处理整本书或长达数小时的会议记录——而且由于 DSA 的优化,推理成本并没有显著增加。

强化学习扩展到 Agent 任务#

V3.2 继承了 R1 的强化学习成果,并将其扩展到了 Agent 任务:让模型使用工具——搜索互联网、运行代码、操作数据库。 以前的模型调用工具往往不稳定,容易死循环或参数错误。V3.2 建立了一个大规模任务合成流水线

  • 生成超过 1800 个不同的环境
  • 8.5 万个复杂提示词
  • 涵盖搜索代码、工程代码解释等多种场景

通过在这些数据上进行强化学习,V3.2 学会了在多步骤任务中如何规划、何时调用工具、何时进行思考、在工具返回错误时如何调整策略。

V3.2 性能表现#

基准成绩
TerminalBench 2.046.4% 准确率
SWE-bench Verified73.1 分

这些成绩显著超越了其他开源模型,在某些指标上甚至超越了闭源模型。

V3.2 Special:奥林匹克金牌水平#

DeepSeek V3.2 Special 是一个高计算量变体,放松了长度限制,允许模型进行更长时间的思考:

  • 2025 年国际数学奥林匹克(IMO):获得金牌成绩
  • 国际信息学奥林匹克(IOI):同样获得金牌

这标志着开源模型在顶级智力竞赛中已经具备了夺牌的实力。


DeepSeek V4:Agent 时代的王者归来#

今年2026年最热的 AI 方向毫无疑问是 Agent。在 V4 之前,DeepSeek 就已经默默发表了很多论文——包括 M-man 记忆系统、提升吞吐量的多泡(Multi-Head Latent Batching)、还有 MoE 2.0——本质上都在为长上下文、高吞吐、高并发 Agent 做准备。

双版本王炸#

V4 直接甩出双版本:

版本参数规模激活参数特点
V4 Pro1.6T(1.6万亿)49BAgent 能力拉满,编程竞赛、数学推理碾压开源
V4 Flash轻量级速度快、成本低,推理能力接近 Pro

两个版本均支持 100 万 token1M 超长上下文,并同时支持思考模式非思考模式,其中思考模式支持通过 budget_tokens 参数设计思考强度。

V4 Pro 的核心表现#

agentic coding(Agent 编程)评测中,V4 Pro 已达到当前开源模型的最佳水平,并在其他 Agent 相关评测中同样表现优异。 目前 V4 已经成为 DeepSeek 内部员工使用的 Agent 与 Agentic Coding 首选模型,据内部评测反馈:

  • 使用体验优于 Claude Sonnet 4.5
  • 交付质量接近 OpenAI O4.6 的非思考模式
评测维度V4 Pro 表现
世界知识大幅领先其他开源模型,仅稍逊于 Gemini Pro 3.1
数学/STEM/竞赛型代码超越当前所有已公开评测的开源模型
agentic coding当前开源模型最佳水平

Agent 生态适配#

V4 针对主流 Agent 产品进行了专项适配和优化:

  • Claude Code
  • Open Codeinterpreter
  • CursorWindsurf 等主流 AI 编程产品 在代码任务、文档生成等方面均有明显提升。V4 API 支持 OpenAI 兼容接口与 native 接口,方便无缝迁移。

对于复杂 Agent 场景,建议使用思考模式并将 budget_tokens 设置为 max。


总结:技术路线的成功#

DeepSeek 的成功不仅仅是技术的成功,更是路线的成功

  • 坚持开源:每一个版本都开源权重,推动整个社区进步
  • 坚持效率:不是靠堆算力,而是靠架构创新实现性能突破
  • 坚持长期主义:从 V1 的缩放定律研究,到 V4 的 Agent 生态,每一步都有明确的技术逻辑 从 V1 的 2T token 高质量预训练,到 V2 的 MLA + 细粒度 MoE,到 V3 的 FP8 训练 + DualPipe,再到 R1 的纯强化学习涌现推理,再到 V4 的 1.6T 参数 Agent 王者——DeepSeek 走出了一条属于自己的路。

他们没有盲目跟随闭源模型的脚步,而是在每个技术决策点上都做出了更具创造性的选择。这不只是 DeepSeek 的发展历程,更是中国 AI 开源史上最重要的篇章之一。


技术关键词索引#

术语含义首次出现版本
MoE(混合专家模型)只激活部分专家参数,降低推理成本V2
MLA(多头潜在注意力)对 KV Cache 进行低秩压缩,减少 93.3% 显存V2
DeepSeekMoE细粒度专家 + 共享专家的 MoE 改进架构V2
设备限制路由限制 token 只发送到有限设备,控制通信成本V2
FP8 混合精度训练细粒度量化 + 高精度累加,稳定 FP8 训练V3
MTP(多 Token 预测)同时预测多个 token,增加训练信号密度V3
无辅助损失负载均衡用偏置项动态调整专家负载,无需辅助 LossV3
DualPipe双向流水线并行,重叠计算与通信V3
GRPOGroup Relative Policy Optimization,高效 RL 算法R1
冷启动数据R1 训练的第一阶段:少量思维链数据引导格式R1
DSA(稀疏注意力)降低长上下文注意力计算复杂度V3.2
budget_tokensV4 思考模式中控制思考强度的参数V4

参考视频:真王回归!!!DeepSeek系列最全回顾!无缝衔接V4!

DeepSeek 技术演进:从 V1 到 V4 的架构突破
https://blog.alinche.dpdns.org/posts/ai/llm/deepseek/deepseek-evolution/
作者
Oeasy1412
发布于
2026-05-23
许可协议
CC BY-NC-SA 4.0