Diffusion LLM：当语言模型不再一个 token 一个 token 写

flowchart LR
  A["Diffusion LLM"]
  A --> B["分类：前沿探索"]
  A --> C["关键词：Mercury"]
  A --> D["关键词：LLaDA"]
  A --> E["关键词：非自回归"]
  A --> F["关键词：推理优化"]

你可能没注意到，2026 年 2 月有件事相当重要：Inception Labs 的 Mercury 2 在 NVIDIA Blackwell 上跑出 1009 tokens/秒，价格 0.25/0.75 美元每百万 token，质量逼近 GPT-5.2 量级。这是第一个真正商用上线、能塞进 OpenAI 兼容 API 的扩散语言模型。Transformer 的位置没动，但「LLM 一定要一个 token 一个 token 往外吐」这件事，第一次被工程上有力地反驳了。

延伸阅读：

Introducing Mercury 2 — Inception Labs

Mercury: Ultra-Fast Language Models Based on Diffusion (arXiv)

Large Language Diffusion Models — LLaDA 论文

LLaDA-V：多模态扩散语言模型

Mercury 2 on Azure AI Foundry

这篇文章会讲什么

如果你只关注模型 benchmark，可能会觉得 2026 年 Q1 没什么新鲜事——榜单还是 GPT-5.4、Claude Opus 4.6/4.7、Gemini 3.1 Pro 在轮流刷新。但如果你看的是「底层生成机制」，2026 年 Q1 是一个分水岭：

第一次有非自回归（non-autoregressive）大语言模型，在生产环境里用一种和 Transformer-AR 完全不同的解码哲学跑了起来。

之前不是没人尝试。从 2018 年的 Non-Autoregressive Translation（NAT）论文起，学术界就一直在试图打破 token-by-token 解码的瓶颈，但始终在「速度上去了，但质量太差」之间被困住。直到 2025 年的 LLaDA 证明了 8B 规模扩散 LM 能追上 LLaMA3 8B 的水平，2026 年 2 月 Mercury 2 把这条路线第一次推到「质量够 + 速度数量级领先 + 价格便宜 + API 兼容」的产品形态。

这篇文章想讲清楚四件事：

扩散 LLM 在做什么——为什么它能并行生成所有 token
它和自回归（AR）模型有哪些根本性差别——不只是「更快」
它适合什么场景，不适合什么场景——尤其是 reasoning 上的取舍
它会取代 Transformer 吗——以及更现实的问题：它会不会改变你下半年的技术选型

先建立一个直觉：AR 是打字员，Diffusion 是改稿人

先看定义：自回归（Autoregressive, AR）模型每次生成下一个 token，会把目前已经生成的所有 token 喂回去；扩散（Diffusion）模型一次性生成全部 token，但通过多次”去噪”迭代逐步把它们从噪声变成正确答案。

最直观的对比：

维度	自回归 LLM (GPT/Claude/Gemini)	扩散 LLM (Mercury/LLaDA)
类比	打字员从左到右一字一字打	编辑拿到一篇随机草稿，反复改 N 次
每次推理生成	1 个 token	整段文本（如 200–500 token）
总步数	= 输出长度	= 去噪步数（典型 10–20）
延迟随长度变化	线性增长	几乎不变（取决于步数）
并行度	极低（必须等上一个）	高（一次推理覆盖全长度）
训练目标	预测下一个 token	预测被遮罩的 token

注意最后两行：扩散 LLM 的延迟不再是输出长度的线性函数。这是一个看似细节、但实则颠覆性的属性变化。

用一段对话感受一下

假设要回答一个 300 token 的问题：

AR 模型（80–120 tokens/sec）：3–4 秒；用户感受到「在打字」。
Mercury 2（1009 tokens/sec）：约 0.3 秒；用户感受到「直接出现了」。

更极端的差别在 agent loops 里：一个任务 30 步 LLM 调用，AR 模型每步 2 秒就是 60 秒；Mercury 量级则压缩到 6 秒。这种差距不仅是省时间，是让原本不能做的产品形态变成可做。

Diffusion LLM 是怎么工作的

先看定义：扩散语言模型借鉴了图像扩散（Stable Diffusion 那一套）的思想，用「forward process 加噪 + reverse process 去噪」的范式来生成 token。

Forward Process（训练用的加噪方向）

训练时，模型会看到一段真实文本，然后随机把若干 token 替换成 [MASK]（或者别的”噪声 token”）。目标是学会从被遮罩的版本还原原文：

原文：今天天气不错适合出去散步
加噪：今天 [M] 不错 [M] 出去 [M]
任务：模型要预测出 [M] 的位置应该填什么

这听起来像 BERT，是的，本质上就是 大规模 masked prediction。但和 BERT 不同的是：

扩散 LLM 是 生成式的，不只做表征
训练时遮罩比例是动态的，从 0% 到接近 100% 都会出现
配合”去噪步数”概念，能在推理时做迭代式生成

Reverse Process（推理时的生成方向）

推理时，从一段全是 [MASK] 的序列开始，反复迭代：

Step 0:  [M][M][M][M][M][M][M][M][M][M]
Step 1:  今天[M][M]不错[M][M]散步[M][M]
Step 2:  今天天气[M][M]不错[M][M]散步[M][M]
Step 3:  今天天气[M][M]不错适合[M]散步出门
Step 4:  今天天气不错适合出去散步
...     (10–20 步后收敛)

每一步：

模型看完整序列（包含已确定 token 和未确定 mask）
模型对每个 mask 位置预测可能的 token
采样策略决定这一步保留哪些预测（通常按置信度从高到低）
剩下还是 mask 的位置进入下一轮

注意这里和 AR 的根本区别：

AR 的”上下文”永远是「左边已经写好的东西」
Diffusion 的”上下文”是「左右都看，包括其他位置的当前候选」

这个差别带来一个有趣后果：扩散 LM 没有「reversal curse」问题。LLaDA 论文专门提到这点——它在反转诗句补全（“补出前一句”这类任务）上能超过 GPT-4o，因为它生来就是双向上下文。

算力曲线：为什么”更慢的步数”反而总耗时更短

直觉上你会想：AR 一步生成 1 个 token，Diffusion 一步生成所有 token 但要做 10–20 步——这不是差不多吗？

差很多。原因在于：

AR 模型每生成 1 个 token，要做一次完整的 forward，只产出 1 个有效结果
Diffusion 每一步同样做一次 forward，但产出 N 个有效预测（即使采样只接受其中一部分）

更关键的是 并行硬件利用率。GPU 是为大规模并行设计的，AR 解码恰恰是它最不擅长的（几乎无法 batch 内并行单条序列）。Diffusion 把”序列内”也变成并行，硬件利用率飞升。

几个工程细节

Mercury 2 是基于 Transformer 的 diffusion：它没扔掉 Transformer，只是把训练目标和解码方式换了
128K 上下文 + native tool use + JSON schema 输出：在工程接口上跟主流 AR 模型对齐，不是只能做特定任务
OpenAI API 兼容：你可以把 base_url 一改就接上，几乎零迁移成本

Mercury 2 的具体能力盘点

维度	数据
速度	1009 tokens/sec（NVIDIA Blackwell）
价格	$0.25 / 1M input · $0.75 / 1M output
上下文	128K
质量	与速度优化的前沿模型相当；复杂 reasoning 上有 5–15% 差距
工具调用	原生支持
JSON 模式	schema-aligned 输出
API	OpenAI API 兼容
部署	API + Azure AI Foundry

价格放对比里看会更直观：

模型	输入价格（$/1M）	输出价格（$/1M）	速度（tok/s）
GPT-5.4	1.25	10.00	~80
Claude Opus 4.6	15.00	75.00	~50
Gemini 2.5 Flash	0.075	0.30	~250
DeepSeek V3.2	0.27	1.10	~60
Kimi K2.5	0.20	0.80	334
Mercury 2	0.25	0.75	1009

它不是最便宜的（Gemini 2.5 Flash 更便宜），但单位价格的速度是没人能比的。

它强在哪：四类场景的真实改变

Mercury 官方博客和我自己看到的部分早期采用案例，集中在四个场景。把它们抽象出来，背后都是「延迟敏感 + 高并发 + reasoning 不需要顶尖」的组合。

1. 编码补全和 next-edit suggestion

Zed 的联合创始人 Max Brunsfeld 在 Mercury 官网评价里说：「补全出现的速度，让它感觉像是你思考的一部分，而不是等出来的东西。」

这个差别很微妙但很重要。AR 模型 800ms 出补全 vs Diffusion 模型 80ms 出补全，听起来都”挺快”，但前者会让用户产生”我在等”的意识，后者不会。人类输入流的中断阈值大约在 100ms，AR 永远在这个阈值的边缘，Diffusion 第一次稳定在阈值之内。

2. Agent loops

Agent 任务串联 30+ LLM 调用是常态。每步省 1 秒就是省 30 秒。这不仅是用户体验的改善，是 可执行任务空间的扩展——原本因为延迟超出用户耐心而做不了的复杂任务，现在变得可做。

Skyvern CTO 说：“Mercury 2 至少比 GPT-5.2 快 2 倍，对我们来说是 game changer。“——这就是 agent 公司的真实痛点。

3. 实时语音

语音助手的延迟预算是 AI 里最紧的。从用户说完话到 AI 开口回应，超过 700ms 就开始让人觉得不自然，超过 1.5s 就基本没法用了。AR 模型在这个预算里只能给非常短的回复或非常浅的 reasoning，Diffusion LM 把这个空间打开了。

Happyverse AI 做 video avatar 的，Wispr Flow 做实时语音转写后处理的，都是因为这个原因切到了 Mercury。

4. 搜索 / RAG

多跳检索 + rerank + 摘要的延迟会迅速堆叠。每一环节用 AR 都让人慢半拍。Diffusion LM 让在搜索 loop 里塞 reasoning 步骤变得可负担。

它弱在哪：reasoning 上的真实差距

诚实地说，扩散 LLM 当前最明显的短板就是 复杂多步 reasoning。

为什么 reasoning 上有差距

直觉上：

AR 模型生成 reasoning 时，每一步都”看到”前面所有推理。这种严格因果结构和数学/代码推理的本性高度匹配。
Diffusion 模型一次性生成全段，每一步都在”全局重写”。这种全局并行对结构化论证不天然友好。

数据上：

Mercury 2 在简单 reasoning（GSM8K 等基础数学）上接近 AR
在 MATH、HumanEval+ 等复杂任务上仍有 5–15% 差距
在长链 reasoning（如 AIME 这种需要 50+ 步推导）上差距更大

它的 “tunable reasoning” 是什么

Mercury 2 提供 tunable reasoning 模式：可以让模型多迭代几步去噪来换更高质量。这在某种程度上模仿了 AR 的 test-time compute scaling，但本质机制不同：

AR 的 reasoning scaling 是”输出更长链”
Diffusion 的 reasoning scaling 是”对同样长的输出迭代更多次”

经验上：tunable reasoning 能挽回一部分差距，但不能完全填补。

实践上的判断

任务类型	推荐
数学推理（高难度）	AR (GPT-5.4 / Claude Opus / DeepSeek R1)
复杂代码生成（多文件）	AR
简单代码补全 / next edit	Diffusion
文档摘要	两者都行
实时翻译	Diffusion
Agent loop 中的辅助步骤	Diffusion
Agent loop 中的关键决策	AR
语音助手	Diffusion
长链规划	AR

简化版：reasoning 重 → AR；速度重 → Diffusion；混合系统两者结合。

LLaDA：学术侧的对应坐标

如果说 Mercury 2 是产品侧的代表，那 LLaDA 就是学术侧最值得关注的扩散 LM。

LLaDA 的几个贡献

证明了扩散 LM 可以从 scratch 训练到 8B 规模：之前多数尝试停留在 < 1B
8B 性能追上 LLaMA3 8B：在 in-context learning、math、code、follow-instruction 上整体竞争力
解决 reversal curse：在反转任务上超过 GPT-4o
完全开源：模型权重、代码、训练 recipe 都公开
LLaDA-V：扩展到多模态，证明扩散 LM 可以做视觉 instruction tuning
LLaDA-MoE：把 MoE 也加进来，1B 激活参数级别

LLaDA vs Mercury 2

维度	LLaDA	Mercury 2
性质	学术研究 + 开源	商业产品 + API
规模	8B	未公开（推测十亿到几十亿激活）
速度	未优化（推理实现是参考级）	1009 tok/s（产线优化）
上下文	较短	128K
工具调用	无	原生
场景	研究 / 探索 / 自托管	直接接进产品

两者互补：LLaDA 是这条路线的开放参考实现，Mercury 是商业落地证明。如果你想自己做扩散 LM 实验，LLaDA 是起点；如果你要在产品里直接用，Mercury 是首选。

它会取代 Transformer 吗

简短回答：不会，但会改变你的混合架构。

让我把这个回答展开。

不会取代的原因

复杂 reasoning 上 AR 仍然有结构性优势：因果生成结构 + chain-of-thought + test-time compute scaling，这一套在数学、代码、复杂规划上的优势短期不会被填平
生态成熟度：AR 模型有十年的训练 / 评测 / 调优经验积累，Diffusion LM 才刚起步
训练成本：从 scratch 训练一个高质量 Diffusion LM 仍然不便宜，业界还没看到大量公司跟进
架构本身仍然基于 Transformer：Mercury 2 也好 LLaDA 也好，底层都是 Transformer，所以这不是”换底层”的事

会改变的地方

延迟敏感场景的默认选项会变：编码、语音、agent loop、实时搜索这些场景会出现”默认走 Diffusion”的态势
混合架构会成为常态：高 reasoning 段走 AR，高速度段走 Diffusion，两者都接入同一个 agent 系统
小模型的速度门槛会被重新定义：以前小模型快是因为参数少，现在出现了”参数中等但速度极快”的中间档
“延迟即能力”会成为新的产品考量：不只是”能不能做”，而是”能不能在用户耐心范围内做”

一个更现实的预测

未来 12–18 个月里，最可能看到的是：

OpenAI / Anthropic / Google 至少有一家也推出 diffusion 路线的产品（可能不止一家）
开源生态会出现更多 LLaDA 量级的模型
“延迟分层”会进入主流模型 API（深度模式 / 标准模式 / 极速模式 / 扩散模式）
多数生产 agent 系统会变成 AR + Diffusion 混合，而不是单押一边

怎么把它接进你的系统

最小路径，几行代码就完成（OpenAI API 兼容）：

from openai import OpenAI

client = OpenAI(
    api_key="<INCEPTION_API_KEY>",
    base_url="https://api.inceptionlabs.ai/v1",
)

resp = client.chat.completions.create(
    model="mercury-2",
    messages=[
        {"role": "system", "content": "你是一个简洁的助手。"},
        {"role": "user", "content": "用一段话解释什么是扩散语言模型。"},
    ],
)
print(resp.choices[0].message.content)

更值得讨论的是 路由策略。建议在你的 LLM Gateway / 模型路由层做这样的分级：

任务画像	路由到
编码补全 / inline 编辑	Mercury 2 / Codestral
简单分类 / 抽取	Mercury 2 / Gemini Flash
多轮对话主回复	GPT-5.4 / Claude Sonnet 4.6
复杂推理 / 深度规划	DeepSeek R1 / Claude Opus 4.7 / GPT-5.4 Pro
语音 turn 内 LLM 调用	Mercury 2（必选）
Agent 内的辅助 step	Mercury 2
Agent 内的关键 decision	AR 强 reasoning 模型

LiteLLM、Helicone、OpenRouter 这类网关在 2026 都已支持 Mercury 系列，路由配置可以在几小时内搭起。

几个常见误解的纠正

误解 1：“扩散 LLM 就是图像扩散加文字版”

不完全。两者共享”加噪 + 去噪”这个数学框架，但具体实现差异很大。图像扩散在连续空间做（像素 RGB），LLM 在离散 token 空间做（masked prediction），后者本质上更接近 BERT 范式 + 迭代解码。

误解 2：“并行解码 = 质量必然差”

这是 2018–2023 年的老印象。早期 NAT 模型确实有质量差距，但通过 iterative refinement、半自回归、训练目标改进，到 LLaDA 和 Mercury 2 已经把差距压缩到了大多数任务上”察觉不到”的程度。复杂 reasoning 上仍有差距，其他场景已经基本平。

误解 3：“速度快 = 一定省钱”

不一定。速度快意味着吞吐高，但定价由提供商决定。Mercury 2 当前定价 $0.25/$0.75，已经比多数 AR 模型便宜，但严格来说”速度 vs 价格”是两件事。

误解 4：“Diffusion 出来了，AR 就过时了”

完全不是。复杂 reasoning 上 AR 仍是最佳选择。理性判断是：它扩展了你的工具箱，没缩小。

给不同角色的建议

应用开发者

任何延迟敏感场景都该试一下 Mercury 2，有 OpenAI API 兼容意味着试错成本极低
不要全栈替换 AR，而是引入路由层做混合
对 agent 系统，把”非关键决策”全部 offload 到 Diffusion，能解锁更长的 horizon

平台 / 基础设施

你的 LLM Gateway 应该开始支持”按延迟预算路由”
监控指标里加一项 token/sec 的分布
评估你现有的 prompt 在 Diffusion 上的表现，可能要做小幅调整（Diffusion 对 prompt 长度更不敏感，但对结构化 instruction 同样敏感）

研究者

LLaDA 的开源给了一个完整起点，可以从这里起手做中文扩散 LM、多模态扩散 LM、扩散 + reasoning 等方向
“扩散 LM 上的 RLHF”是个明显未开发的方向
扩散 LM 的可解释性（每一步去噪在做什么）是值得做的研究

CTO / 决策者

不要把扩散 LLM 当成”另一个模型选择”，把它当成”延迟数量级降低这件事终于变成产品输入”
评估你的产品里有哪些功能是被延迟拖累的，那些就是潜在的产品创新机会
不要 all-in，但也不要不试

一句话收束

Transformer 没退场，但「LLM 一定要从左到右一个 token 一个 token 输出」这个隐含假设，在 2026 年第一次被产线级地打破。当延迟从能力的代价变成可设计的变量，产品形态会比技术规格本身变化得更深。