DeepSeek 技术演进：从 V1 到 V4 的架构突破

2026-05-23 DeepSeek-V4-Pro 正式宣布其永久定价：百万输入3￥，百万输出6￥，百万输入缓存命中0.025￥

让我们一起回到 2024 年初，AI 圈硝烟弥漫：OpenAI 的 GPT 系列一骑绝尘，Meta 的 LLaMA 系列统治开源社区，大多数团队都在微调现有模型，而真正敢从零预训练大模型的团队寥寥无几——高昂的成本、未知的风险，让大多数人望而却步。DeepSeek 团队正选择了一条艰难的路。

本文将系统梳理 DeepSeek 从 V1 到 V4 的完整技术演进路线，近可能的把每一次架构突破的动机、方案和效果讲清楚。

背景：梁文峰与幻方科技#

故事的主角是梁文峰，1985 年生，来自广东湛江，父母都是老师。他从小在数学上展露出过人天赋——初中就自学完高中数学，开始钻研大学微积分。2002 年，17 岁的他以当地高考状元的身份考入浙江大学。

转折点出现在 2008 年全球金融危机。正在攻读硕士的梁文峰敏锐地察觉到：传统投资策略的失效，恰恰是机器学习可以切入的机会。他带领团队探索用 AI 预测市场走向，开发出国内较早的量化交易模型。2010 年毕业时，这个模型已经为他赚到了人生的第一桶金。

后来他创办了幻方科技，这家公司逐步成为量化投资界的知名机构。当 2023 年 ChatGPT 火爆全球时，梁文峰做了一个决定——将目光投向通用人工智能，创立了 DeepSeek。

幻方手中握着一张关键的王牌：

萤火一号（2019 年）：耗资约 2 亿元，自主研发的超算集群
萤火二号（2021 年）：投入约 10 亿元建造，规模相当于一个篮球场，搭载约 1 万张英伟达 A100 显卡

这套原本用于量化交易的算力系统，后来成为 DeepSeek 最坚实的后盾。量化出身的团队对成本和效率有着天然的敏感——这种基因贯穿了 DeepSeek 所有技术决策。

DeepSeek V1：从缩放定律开始#

核心问题：数据、模型、算力的关系#

幻方决定从头训练，要亲自验证开源模型的上限到底在哪里。于是 DeepSeek LLM（V1 版本）诞生了，其论文标题里甚至带着一个关键的字眼：长期主义。

V1 做了一件非常硬核的事：没有盲目堆数据，而是先研究缩放定律(Scaling Laws)——即 模型大小、数据量、计算力 三者之间的关系。

此前学界的研究结论并不统一，有的说数据更重要，有的说模型更大更好。DeepSeek 团队决定亲自算一遍。通过大量实验，他们发现：

不同数据集的缩放定律表现不同。高质量的数据能让模型更小，但性能更强。

基于这个发现，他们构建了 2 万亿 token 的高质量数据集。

V1 的模型规模：7B 与 67B#

V1 同时推出了 7B 和 67B 两个版本的基座模型。67B 在当时是一个关键的选择：当时开源社区的王者 LLaMA 2 正好就是 70B，DeepSeek 67B 敢不敢碰一碰？结果令人惊喜： DeepSeek 67B 在代码能力超越 LLaMA 2 70B，在数学推理也能 取得优势

V1 的对话能力：SFT + DPO#

光有基座模型还不够，用户需要能对话的助手。V1 进行了监督微调(SFT)，还引入了 DPO(Direct Preference Optimization，直接偏好优化)，让模型更懂人类的意图。

在开放式评测中，DeepSeek 67B 聊天版本的表现甚至超过了 GPT-3.5。但 V1 团队清楚：架构上还是传统的 Transformer，随着模型变大，推理成本会急剧上升，显存占用越来越大，速度越来越慢。要让大模型真正普及，必须解决效率问题。于是他们把目光投向了更深层的架构创新。

DeepSeek V2：架构革命—— `MoE` + `MLA`#

2024 年中，大模型竞赛进入白热化。DeepSeek 团队发现：单纯堆参数的边际效应在递减，而且推理成本高到普通开发者根本用不起。他们给出的版本答案是 MoE（混合专家模型）。

MoE 的核心思想#

MoE 的核心是术业有专攻：

传统模型：处理每个 token 都要动用所有参数，就像一家公司不管遇到什么小事，都要所有员工一起开会决定——效率极低
MoE 模型：把模型分成很多个”专家”，每次来一个任务，通过路由网络去判断需要哪几个专家处理，只有少部分参数被激活，大部分在”休息”

MoE混合专家模型的好处显而易见：在总参数量很大（保证知识容量）的同时，每次计算激活的参数量较少（保证推理速度）。

但传统 MoE 也有两个缺点：

通信开销大：专家可能分布在不同显卡上，数据传来传去，时间浪费在路上
负载不均衡：有的专家累死，有的专家闲死

DeepSeek V2 正是为解决这些问题而来的。

V2 的参数规模#

指标	数值
总参数数量	2360亿(236B)
平均每次激活参数量	210亿(21B)
效果	拥有千亿模型的智力，却只有百亿模型的计算成本

创新一：细粒度 MoE (`DeepSeekMoE`)#

传统 MoE 的专家粒度比较粗，V2 就把专家切分得更细。细粒度的专家能更精准地捕捉知识。同时他们也会隔离出一部分共享的通用专家——这些通用专家每次都会被激活，保证模型的基础能力不会丢失。为了解决负载不均衡，V2 设计了设备限制路由（Device-Limited Routing）：限制每个 token 只能发送到有限数量的设备上，既保证了专家的专业性，又控制了通信成本。

创新二：MLA (`Multi-head Latent Attention`)#

这是 V2 最亮眼的创新之一。问题：Transformer 模型在生成文本时需要缓存 Key 和 Value 矩阵（即 KV Cache）。随着生成长度增加，KV Cache 会占用大量显存，限制了上下文长度和并发量。传统优化方法（GQA、MQA）虽然减少了 KV Cache，但往往也伴随着性能的牺牲。 MLA 的做法：对 Key 和 Value 进行低秩联合压缩。简单说，就是把庞大的 KV 矩阵压缩成一个很小的潜在向量(Latent Vector)，推理时只缓存这个潜在向量，等到需要计算注意力时再还原回来。

指标	变化
KV Cache 大小	减少 93.3%
性能	不仅没有损失，多项基准测试中甚至优于标准 MHA 架构

同样的显存，可以处理更长的上下文，或服务更多的用户。

V2 综合效果#

在两项数学测试中超越 LLaMA 3 70B
训练成本降低 42.5%
生成吞吐量提升 5.76 倍
训练数据：8.1T 高质量 token，中文数据比例有所提升

这对开源社区是个巨大的福音：高性能不再意味着高门槛。

DeepSeek V3：突破 6710 亿参数#

V2 虽然高效，但面对 GPT-4 这样的闭源巨头，开源模型需要更强的底气。于是 V3 的目标是 6710 亿参数，全面对标顶尖闭源模型。

但如果只是简单放大，训练成本将是天文数字。DeepSeek 必须在有限预算内完成这个庞然大物的训练。

技术突破一：FP8 混合精度训练#

传统大模型训练主要用 BF16 或 FP32 精度。FP8 计算更快、显存占用更少，但动态范围小，容易导致训练不稳定，很多团队尝试过、但往往以失败告终。

V3 攻克了这个难题，设计了一套细粒度量化策略：

激活值：按 1×128 的 tile 进行分组缩放
权重：按 128×128 的 block 进行分组缩放
累加精度提升：在 Tensor Core 进行矩阵乘法时，中间结果用低精度，但累加时 promotion 到高精度在 CUDA Core 进行，解决了低精度累加带来的误差累积问题

得益于 FP8 训练，V3 的训练速度大幅提升，显存占用显著降低，使得训练 6710 亿参数的模型成为可能。

技术突破二：多 Token 预测（MTP）#

传统语言模型一次只预测下一个 token。V3 在训练时不仅预测下一个 token，还预测下下个 token，增加了训练信号的密度，模型能更好地规划未来的表示。

推理时，这个多 token 预测模块可以用于投机采样（Speculative Decoding），进一步加速推理。实测显示解码速度提升了 1.8 倍。

技术突破三：无辅助损失的负载均衡#

传统 MoE 的负载均衡方法是用辅助损失函数强迫模型平衡负载，但这会干扰主任务的学习，影响性能。

V3 提出了一种新方法：给每个专家引入一个偏置项(Bias)：

如果某个专家过载 → 减少偏置
如果某个专家欠载 → 增加偏置

不需要辅助损失，就能实现负载均衡。实验证明，这种策略比传统辅助损失方法性能更好。

工程创新：DualPipe 并行#

在基础设施方面，V3 设计了 DualPipe算法，一种双向流水线并行策略，能更好地重叠计算和通信。对于跨节点的 AllToAll 通信，他们定制了更高效的 Kernel，充分利用了 InfiniBand 和 NVLink 的带宽。

这些工程优化使得 V3 的训练极其稳定——整个训练过程中没有出现不可恢复的 Loss 尖峰，也没有进行过任何回滚。

V3 的训练成本#

指标	数值
总算力消耗	2.788M H800 GPU 小时
折合成本	约 557.6 万美元
对比 GPT-4 训练成本	据传 GPT-4 训练成本高达 1 亿美元

V3 性能表现#

基准	结果
MMLU	88.5 分，超越所有开源模型
LiveCodeBench	表现最好的开源模型
代码与数学	表现出色，中文能力展现本土优势

V3 的发布标志着开源模型进入了新阶段：通过架构创新和工程优化，开源模型可以在性能上媲美闭源模型，同时保持极高的性价比。

DeepSeek R1：强化学习激活推理能力#

V3 很强，但有个核心痛点：面对复杂的数学题或代码调试，模型倾向于”直觉反应”，缺乏深度思考过程，无法像人类专家一样一步步推导、自我验证。

从 SFT 到强化学习#

以前的方法是靠监督微调(SFT)：人类写好推理步骤，让模型模仿。但这种方法有局限：

人类的推理步骤未必是最优的
标注成本太高

R1 选择了完全不同的路：使用强化学习，直接激励模型自发产生推理能力。

R1-Zero：纯强化学习的涌现#

这是一个实验性模型，没有任何 SFT，直接基于基座模型进行纯强化学习训练。奖励信号非常简单：

模型怎么思考我不管，只要答案对就给奖励。

神奇的事情发生了。随着训练的进行，模型自发地产生了复杂的推理行为：（详见PPO章节的讲解）

学会了自我反思
学会了验证步骤
学会了遇到死胡同时回溯并尝试新路径

在训练日志中，研究人员观察到了一个”顿悟时刻”：模型开始频繁使用”等等，让我重新检查一下”这样的词汇——这标志着模型内部形成了某种监督机制。

AIME 2024 数学竞赛测试结果：

方法	通过率
R1-Zero	77.9%（从 15.6% 飙升）
R1-Zero + 自一致解码	86.7%
大多数人类参赛者	低于此水平

完整版 R1：多阶段训练#

DeepSeek 推出了完整的 DeepSeek R1，采用多阶段训练：

冷启动数据：收集少量包含人类思维链的数据，让模型学会基本的对话格式
强化学习训练：使用 GRPO算法（一种高效的强化学习算法）
- 准确性奖励：答案正确给奖励
- 格式奖励：推理过程必须放在特定标签内，方便后续分析
SFT 扩展通用能力：加入非推理数据（写作、问答等），让模型不仅会做题，还会聊天

R1 的性能表现#

基准	成绩
AIME 2024	79.8% 通过率
Codeforces 编程竞赛	超越 96.3% 的人类选手
数学、代码、科学推理	达到业界顶尖水平

知识蒸馏：让小模型也会深度推理#

R1 的推理能力可以”传递”。DeepSeek 团队利用 R1 生成的数据，训练了一系列小模型：

蒸馏的 1.5B、7B 版本，性能远超同尺寸的传统模型
强大的推理能力不再需要巨大的算力，手机端、边缘端都有可能运行具备深度思考能力的模型

R1 验证了一个重要假设：

推理能力是可以被激励出来的(RL强化学习)。不需要人类手把手教，只要给对奖励，模型自己能找到最优的解题路径。

DeepSeek V3.2：面向 Agent 的全面进化#

站在 V3 和 R1 的肩膀上，DeepSeek V3.2 应运而生。V3.1 主要验证了长上下文扩展能力，而 V3.2 不仅仅是语言模型的升级——它是面向 Agent、面向复杂任务处理的全面进化。

架构创新：DSA 稀疏注意力#

随着上下文变长，注意力机制的计算复杂度是平方级增长，这限制了长文本处理。

DSA(DeepSeek Sparse Attention) 通过高效的稀疏机制，大幅降低了计算复杂度：保留对关键 token 的关注，忽略无关信息，使得模型在长上下文场景下依然保持高效。

V3.2 的上下文长度稳定支持 128K，意味着它可以一次性处理整本书或长达数小时的会议记录——而且由于 DSA 的优化，推理成本并没有显著增加。

强化学习扩展到 Agent 任务#

V3.2 继承了 R1 的强化学习成果，并将其扩展到了 Agent 任务：让模型使用工具——搜索互联网、运行代码、操作数据库。以前的模型调用工具往往不稳定，容易死循环或参数错误。V3.2 建立了一个大规模任务合成流水线：

生成超过 1800 个不同的环境
8.5 万个复杂提示词
涵盖搜索代码、工程代码解释等多种场景

通过在这些数据上进行强化学习，V3.2 学会了在多步骤任务中如何规划、何时调用工具、何时进行思考、在工具返回错误时如何调整策略。

V3.2 性能表现#

基准	成绩
TerminalBench 2.0	46.4% 准确率
SWE-bench Verified	73.1 分

这些成绩显著超越了其他开源模型，在某些指标上甚至超越了闭源模型。

V3.2 Special：奥林匹克金牌水平#

DeepSeek V3.2 Special 是一个高计算量变体，放松了长度限制，允许模型进行更长时间的思考：

2025 年国际数学奥林匹克（IMO）：获得金牌成绩
国际信息学奥林匹克（IOI）：同样获得金牌

这标志着开源模型在顶级智力竞赛中已经具备了夺牌的实力。

DeepSeek V4：Agent 时代的王者归来#

今年2026年最热的 AI 方向毫无疑问是 Agent。在 V4 之前，DeepSeek 就已经默默发表了很多论文——包括 M-man 记忆系统、提升吞吐量的多泡（Multi-Head Latent Batching）、还有 MoE 2.0——本质上都在为长上下文、高吞吐、高并发 Agent 做准备。

双版本王炸#

V4 直接甩出双版本：

版本	参数规模	激活参数	特点
V4 Pro	1.6T（1.6万亿）	49B	Agent 能力拉满，编程竞赛、数学推理碾压开源
V4 Flash	轻量级	—	速度快、成本低，推理能力接近 Pro

两个版本均支持 100 万 token 的 1M 超长上下文，并同时支持思考模式与非思考模式，其中思考模式支持通过 budget_tokens 参数设计思考强度。

V4 Pro 的核心表现#

在 agentic coding（Agent 编程）评测中，V4 Pro 已达到当前开源模型的最佳水平，并在其他 Agent 相关评测中同样表现优异。目前 V4 已经成为 DeepSeek 内部员工使用的 Agent 与 Agentic Coding 首选模型，据内部评测反馈：

使用体验优于 Claude Sonnet 4.5
交付质量接近 OpenAI O4.6 的非思考模式

评测维度	V4 Pro 表现
世界知识	大幅领先其他开源模型，仅稍逊于 Gemini Pro 3.1
数学/STEM/竞赛型代码	超越当前所有已公开评测的开源模型
agentic coding	当前开源模型最佳水平

Agent 生态适配#

V4 针对主流 Agent 产品进行了专项适配和优化：

Claude Code
Open Codeinterpreter
Cursor、Windsurf 等主流 AI 编程产品在代码任务、文档生成等方面均有明显提升。V4 API 支持 OpenAI 兼容接口与 native 接口，方便无缝迁移。

对于复杂 Agent 场景，建议使用思考模式并将 budget_tokens 设置为 max。

总结：技术路线的成功#

DeepSeek 的成功不仅仅是技术的成功，更是路线的成功：

坚持开源：每一个版本都开源权重，推动整个社区进步
坚持效率：不是靠堆算力，而是靠架构创新实现性能突破
坚持长期主义：从 V1 的缩放定律研究，到 V4 的 Agent 生态，每一步都有明确的技术逻辑从 V1 的 2T token 高质量预训练，到 V2 的 MLA + 细粒度 MoE，到 V3 的 FP8 训练 + DualPipe，再到 R1 的纯强化学习涌现推理，再到 V4 的 1.6T 参数 Agent 王者——DeepSeek 走出了一条属于自己的路。

他们没有盲目跟随闭源模型的脚步，而是在每个技术决策点上都做出了更具创造性的选择。这不只是 DeepSeek 的发展历程，更是中国 AI 开源史上最重要的篇章之一。

技术关键词索引#

术语	含义	首次出现版本
MoE（混合专家模型）	只激活部分专家参数，降低推理成本	V2
MLA（多头潜在注意力）	对 KV Cache 进行低秩压缩，减少 93.3% 显存	V2
DeepSeekMoE	细粒度专家 + 共享专家的 MoE 改进架构	V2
设备限制路由	限制 token 只发送到有限设备，控制通信成本	V2
FP8 混合精度训练	细粒度量化 + 高精度累加，稳定 FP8 训练	V3
MTP（多 Token 预测）	同时预测多个 token，增加训练信号密度	V3
无辅助损失负载均衡	用偏置项动态调整专家负载，无需辅助 Loss	V3
DualPipe	双向流水线并行，重叠计算与通信	V3
GRPO	Group Relative Policy Optimization，高效 RL 算法	R1
冷启动数据	R1 训练的第一阶段：少量思维链数据引导格式	R1
DSA（稀疏注意力）	降低长上下文注意力计算复杂度	V3.2
budget_tokens	V4 思考模式中控制思考强度的参数	V4

参考视频：真王回归！！！DeepSeek系列最全回顾！无缝衔接V4！