Diffusion LLM:当语言模型不再一个 token 一个 token 写

Mercury 2 在 2026 年 2 月把扩散语言模型推到 1000+ tokens/秒,成为第一个商用产线级的非自回归 LLM。LLaDA 也证明了 8B 扩散模型可以追上 LLaMA3 8B。本文拆解扩散 LLM 的工作原理、它和自回归 LLM 的根本区别、能用在哪、不能用在哪,以及它会不会颠覆 Transformer。

13 min read Part of AI Research · Ch. 5

Diffusion LLM:当语言模型不再一个 token 一个 token 写

flowchart LR
  A["Diffusion LLM"]
  A --> B["分类:前沿探索"]
  A --> C["关键词:Mercury"]
  A --> D["关键词:LLaDA"]
  A --> E["关键词:非自回归"]
  A --> F["关键词:推理优化"]

你可能没注意到,2026 年 2 月有件事相当重要:Inception Labs 的 Mercury 2 在 NVIDIA Blackwell 上跑出 1009 tokens/秒,价格 0.25/0.75 美元每百万 token,质量逼近 GPT-5.2 量级。这是第一个真正商用上线、能塞进 OpenAI 兼容 API 的扩散语言模型。Transformer 的位置没动,但「LLM 一定要一个 token 一个 token 往外吐」这件事,第一次被工程上有力地反驳了。


延伸阅读


这篇文章会讲什么

如果你只关注模型 benchmark,可能会觉得 2026 年 Q1 没什么新鲜事——榜单还是 GPT-5.4、Claude Opus 4.6/4.7、Gemini 3.1 Pro 在轮流刷新。但如果你看的是「底层生成机制」,2026 年 Q1 是一个分水岭:

第一次有非自回归(non-autoregressive)大语言模型,在生产环境里用一种和 Transformer-AR 完全不同的解码哲学跑了起来。

之前不是没人尝试。从 2018 年的 Non-Autoregressive Translation(NAT)论文起,学术界就一直在试图打破 token-by-token 解码的瓶颈,但始终在「速度上去了,但质量太差」之间被困住。直到 2025 年的 LLaDA 证明了 8B 规模扩散 LM 能追上 LLaMA3 8B 的水平,2026 年 2 月 Mercury 2 把这条路线第一次推到「质量够 + 速度数量级领先 + 价格便宜 + API 兼容」的产品形态。

这篇文章想讲清楚四件事:

  • 扩散 LLM 在做什么——为什么它能并行生成所有 token
  • 它和自回归(AR)模型有哪些根本性差别——不只是「更快」
  • 它适合什么场景,不适合什么场景——尤其是 reasoning 上的取舍
  • 它会取代 Transformer 吗——以及更现实的问题:它会不会改变你下半年的技术选型

先建立一个直觉:AR 是打字员,Diffusion 是改稿人

先看定义:自回归(Autoregressive, AR)模型每次生成下一个 token,会把目前已经生成的所有 token 喂回去;扩散(Diffusion)模型一次性生成全部 token,但通过多次”去噪”迭代逐步把它们从噪声变成正确答案。

最直观的对比:

维度自回归 LLM (GPT/Claude/Gemini)扩散 LLM (Mercury/LLaDA)
类比打字员从左到右一字一字打编辑拿到一篇随机草稿,反复改 N 次
每次推理生成1 个 token整段文本(如 200–500 token)
总步数= 输出长度= 去噪步数(典型 10–20)
延迟随长度变化线性增长几乎不变(取决于步数)
并行度极低(必须等上一个)高(一次推理覆盖全长度)
训练目标预测下一个 token预测被遮罩的 token

注意最后两行:扩散 LLM 的延迟不再是输出长度的线性函数。这是一个看似细节、但实则颠覆性的属性变化。

用一段对话感受一下

假设要回答一个 300 token 的问题:

  • AR 模型(80–120 tokens/sec):3–4 秒;用户感受到「在打字」。
  • Mercury 2(1009 tokens/sec):约 0.3 秒;用户感受到「直接出现了」。

更极端的差别在 agent loops 里:一个任务 30 步 LLM 调用,AR 模型每步 2 秒就是 60 秒;Mercury 量级则压缩到 6 秒。这种差距不仅是省时间,是让原本不能做的产品形态变成可做


Diffusion LLM 是怎么工作的

先看定义:扩散语言模型借鉴了图像扩散(Stable Diffusion 那一套)的思想,用「forward process 加噪 + reverse process 去噪」的范式来生成 token。

Forward Process(训练用的加噪方向)

训练时,模型会看到一段真实文本,然后随机把若干 token 替换成 [MASK](或者别的”噪声 token”)。目标是学会从被遮罩的版本还原原文:

原文:今天天气不错适合出去散步
加噪:今天 [M] 不错 [M] 出去 [M]
任务:模型要预测出 [M] 的位置应该填什么

这听起来像 BERT,是的,本质上就是 大规模 masked prediction。但和 BERT 不同的是:

  1. 扩散 LLM 是 生成式的,不只做表征
  2. 训练时遮罩比例是动态的,从 0% 到接近 100% 都会出现
  3. 配合”去噪步数”概念,能在推理时做迭代式生成

Reverse Process(推理时的生成方向)

推理时,从一段全是 [MASK] 的序列开始,反复迭代:

Step 0:  [M][M][M][M][M][M][M][M][M][M]
Step 1:  今天[M][M]不错[M][M]散步[M][M]
Step 2:  今天天气[M][M]不错[M][M]散步[M][M]
Step 3:  今天天气[M][M]不错适合[M]散步出门
Step 4:  今天天气不错适合出去散步
...     (10–20 步后收敛)

每一步:

  1. 模型看完整序列(包含已确定 token 和未确定 mask)
  2. 模型对每个 mask 位置预测可能的 token
  3. 采样策略决定这一步保留哪些预测(通常按置信度从高到低)
  4. 剩下还是 mask 的位置进入下一轮

注意这里和 AR 的根本区别:

  • AR 的”上下文”永远是「左边已经写好的东西
  • Diffusion 的”上下文”是「左右都看,包括其他位置的当前候选

这个差别带来一个有趣后果:扩散 LM 没有「reversal curse」问题。LLaDA 论文专门提到这点——它在反转诗句补全(“补出前一句”这类任务)上能超过 GPT-4o,因为它生来就是双向上下文。

算力曲线:为什么”更慢的步数”反而总耗时更短

直觉上你会想:AR 一步生成 1 个 token,Diffusion 一步生成所有 token 但要做 10–20 步——这不是差不多吗?

差很多。原因在于:

  • AR 模型每生成 1 个 token,要做一次完整的 forward,只产出 1 个有效结果
  • Diffusion 每一步同样做一次 forward,但产出 N 个有效预测(即使采样只接受其中一部分)

更关键的是 并行硬件利用率。GPU 是为大规模并行设计的,AR 解码恰恰是它最不擅长的(几乎无法 batch 内并行单条序列)。Diffusion 把”序列内”也变成并行,硬件利用率飞升。

几个工程细节

  • Mercury 2 是基于 Transformer 的 diffusion:它没扔掉 Transformer,只是把训练目标和解码方式换了
  • 128K 上下文 + native tool use + JSON schema 输出:在工程接口上跟主流 AR 模型对齐,不是只能做特定任务
  • OpenAI API 兼容:你可以把 base_url 一改就接上,几乎零迁移成本

Mercury 2 的具体能力盘点

维度数据
速度1009 tokens/sec(NVIDIA Blackwell)
价格$0.25 / 1M input · $0.75 / 1M output
上下文128K
质量与速度优化的前沿模型相当;复杂 reasoning 上有 5–15% 差距
工具调用原生支持
JSON 模式schema-aligned 输出
APIOpenAI API 兼容
部署API + Azure AI Foundry

价格放对比里看会更直观:

模型输入价格($/1M)输出价格($/1M)速度(tok/s)
GPT-5.41.2510.00~80
Claude Opus 4.615.0075.00~50
Gemini 2.5 Flash0.0750.30~250
DeepSeek V3.20.271.10~60
Kimi K2.50.200.80334
Mercury 20.250.751009

它不是最便宜的(Gemini 2.5 Flash 更便宜),但单位价格的速度是没人能比的。


它强在哪:四类场景的真实改变

Mercury 官方博客和我自己看到的部分早期采用案例,集中在四个场景。把它们抽象出来,背后都是「延迟敏感 + 高并发 + reasoning 不需要顶尖」的组合。

1. 编码补全和 next-edit suggestion

Zed 的联合创始人 Max Brunsfeld 在 Mercury 官网评价里说:「补全出现的速度,让它感觉像是你思考的一部分,而不是等出来的东西。」

这个差别很微妙但很重要。AR 模型 800ms 出补全 vs Diffusion 模型 80ms 出补全,听起来都”挺快”,但前者会让用户产生”我在等”的意识,后者不会。人类输入流的中断阈值大约在 100ms,AR 永远在这个阈值的边缘,Diffusion 第一次稳定在阈值之内。

2. Agent loops

Agent 任务串联 30+ LLM 调用是常态。每步省 1 秒就是省 30 秒。这不仅是用户体验的改善,是 可执行任务空间的扩展——原本因为延迟超出用户耐心而做不了的复杂任务,现在变得可做。

Skyvern CTO 说:“Mercury 2 至少比 GPT-5.2 快 2 倍,对我们来说是 game changer。“——这就是 agent 公司的真实痛点。

3. 实时语音

语音助手的延迟预算是 AI 里最紧的。从用户说完话到 AI 开口回应,超过 700ms 就开始让人觉得不自然,超过 1.5s 就基本没法用了。AR 模型在这个预算里只能给非常短的回复或非常浅的 reasoning,Diffusion LM 把这个空间打开了。

Happyverse AI 做 video avatar 的,Wispr Flow 做实时语音转写后处理的,都是因为这个原因切到了 Mercury。

4. 搜索 / RAG

多跳检索 + rerank + 摘要的延迟会迅速堆叠。每一环节用 AR 都让人慢半拍。Diffusion LM 让在搜索 loop 里塞 reasoning 步骤变得可负担。


它弱在哪:reasoning 上的真实差距

诚实地说,扩散 LLM 当前最明显的短板就是 复杂多步 reasoning

为什么 reasoning 上有差距

直觉上:

  • AR 模型生成 reasoning 时,每一步都”看到”前面所有推理。这种严格因果结构和数学/代码推理的本性高度匹配。
  • Diffusion 模型一次性生成全段,每一步都在”全局重写”。这种全局并行对结构化论证不天然友好。

数据上:

  • Mercury 2 在简单 reasoning(GSM8K 等基础数学)上接近 AR
  • 在 MATH、HumanEval+ 等复杂任务上仍有 5–15% 差距
  • 在长链 reasoning(如 AIME 这种需要 50+ 步推导)上差距更大

它的 “tunable reasoning” 是什么

Mercury 2 提供 tunable reasoning 模式:可以让模型多迭代几步去噪来换更高质量。这在某种程度上模仿了 AR 的 test-time compute scaling,但本质机制不同:

  • AR 的 reasoning scaling 是”输出更长链”
  • Diffusion 的 reasoning scaling 是”对同样长的输出迭代更多次”

经验上:tunable reasoning 能挽回一部分差距,但不能完全填补。

实践上的判断

任务类型推荐
数学推理(高难度)AR (GPT-5.4 / Claude Opus / DeepSeek R1)
复杂代码生成(多文件)AR
简单代码补全 / next editDiffusion
文档摘要两者都行
实时翻译Diffusion
Agent loop 中的辅助步骤Diffusion
Agent loop 中的关键决策AR
语音助手Diffusion
长链规划AR

简化版:reasoning 重 → AR;速度重 → Diffusion;混合系统两者结合


LLaDA:学术侧的对应坐标

如果说 Mercury 2 是产品侧的代表,那 LLaDA 就是学术侧最值得关注的扩散 LM。

LLaDA 的几个贡献

  • 证明了扩散 LM 可以从 scratch 训练到 8B 规模:之前多数尝试停留在 < 1B
  • 8B 性能追上 LLaMA3 8B:在 in-context learning、math、code、follow-instruction 上整体竞争力
  • 解决 reversal curse:在反转任务上超过 GPT-4o
  • 完全开源:模型权重、代码、训练 recipe 都公开
  • LLaDA-V:扩展到多模态,证明扩散 LM 可以做视觉 instruction tuning
  • LLaDA-MoE:把 MoE 也加进来,1B 激活参数级别

LLaDA vs Mercury 2

维度LLaDAMercury 2
性质学术研究 + 开源商业产品 + API
规模8B未公开(推测十亿到几十亿激活)
速度未优化(推理实现是参考级)1009 tok/s(产线优化)
上下文较短128K
工具调用原生
场景研究 / 探索 / 自托管直接接进产品

两者互补:LLaDA 是这条路线的开放参考实现,Mercury 是商业落地证明。如果你想自己做扩散 LM 实验,LLaDA 是起点;如果你要在产品里直接用,Mercury 是首选。


它会取代 Transformer 吗

简短回答:不会,但会改变你的混合架构

让我把这个回答展开。

不会取代的原因

  1. 复杂 reasoning 上 AR 仍然有结构性优势:因果生成结构 + chain-of-thought + test-time compute scaling,这一套在数学、代码、复杂规划上的优势短期不会被填平
  2. 生态成熟度:AR 模型有十年的训练 / 评测 / 调优经验积累,Diffusion LM 才刚起步
  3. 训练成本:从 scratch 训练一个高质量 Diffusion LM 仍然不便宜,业界还没看到大量公司跟进
  4. 架构本身仍然基于 Transformer:Mercury 2 也好 LLaDA 也好,底层都是 Transformer,所以这不是”换底层”的事

会改变的地方

  1. 延迟敏感场景的默认选项会变:编码、语音、agent loop、实时搜索这些场景会出现”默认走 Diffusion”的态势
  2. 混合架构会成为常态:高 reasoning 段走 AR,高速度段走 Diffusion,两者都接入同一个 agent 系统
  3. 小模型的速度门槛会被重新定义:以前小模型快是因为参数少,现在出现了”参数中等但速度极快”的中间档
  4. “延迟即能力”会成为新的产品考量:不只是”能不能做”,而是”能不能在用户耐心范围内做”

一个更现实的预测

未来 12–18 个月里,最可能看到的是:

  • OpenAI / Anthropic / Google 至少有一家也推出 diffusion 路线的产品(可能不止一家)
  • 开源生态会出现更多 LLaDA 量级的模型
  • “延迟分层”会进入主流模型 API(深度模式 / 标准模式 / 极速模式 / 扩散模式)
  • 多数生产 agent 系统会变成 AR + Diffusion 混合,而不是单押一边

怎么把它接进你的系统

最小路径,几行代码就完成(OpenAI API 兼容):

from openai import OpenAI

client = OpenAI(
    api_key="<INCEPTION_API_KEY>",
    base_url="https://api.inceptionlabs.ai/v1",
)

resp = client.chat.completions.create(
    model="mercury-2",
    messages=[
        {"role": "system", "content": "你是一个简洁的助手。"},
        {"role": "user", "content": "用一段话解释什么是扩散语言模型。"},
    ],
)
print(resp.choices[0].message.content)

更值得讨论的是 路由策略。建议在你的 LLM Gateway / 模型路由层做这样的分级:

任务画像路由到
编码补全 / inline 编辑Mercury 2 / Codestral
简单分类 / 抽取Mercury 2 / Gemini Flash
多轮对话主回复GPT-5.4 / Claude Sonnet 4.6
复杂推理 / 深度规划DeepSeek R1 / Claude Opus 4.7 / GPT-5.4 Pro
语音 turn 内 LLM 调用Mercury 2(必选)
Agent 内的辅助 stepMercury 2
Agent 内的关键 decisionAR 强 reasoning 模型

LiteLLM、Helicone、OpenRouter 这类网关在 2026 都已支持 Mercury 系列,路由配置可以在几小时内搭起。


几个常见误解的纠正

误解 1:“扩散 LLM 就是图像扩散加文字版”

不完全。两者共享”加噪 + 去噪”这个数学框架,但具体实现差异很大。图像扩散在连续空间做(像素 RGB),LLM 在离散 token 空间做(masked prediction),后者本质上更接近 BERT 范式 + 迭代解码。

误解 2:“并行解码 = 质量必然差”

这是 2018–2023 年的老印象。早期 NAT 模型确实有质量差距,但通过 iterative refinement、半自回归、训练目标改进,到 LLaDA 和 Mercury 2 已经把差距压缩到了大多数任务上”察觉不到”的程度。复杂 reasoning 上仍有差距,其他场景已经基本平。

误解 3:“速度快 = 一定省钱”

不一定。速度快意味着吞吐高,但定价由提供商决定。Mercury 2 当前定价 $0.25/$0.75,已经比多数 AR 模型便宜,但严格来说”速度 vs 价格”是两件事。

误解 4:“Diffusion 出来了,AR 就过时了”

完全不是。复杂 reasoning 上 AR 仍是最佳选择。理性判断是:它扩展了你的工具箱,没缩小


给不同角色的建议

应用开发者

  • 任何延迟敏感场景都该试一下 Mercury 2,有 OpenAI API 兼容意味着试错成本极低
  • 不要全栈替换 AR,而是引入路由层做混合
  • 对 agent 系统,把”非关键决策”全部 offload 到 Diffusion,能解锁更长的 horizon

平台 / 基础设施

  • 你的 LLM Gateway 应该开始支持”按延迟预算路由”
  • 监控指标里加一项 token/sec 的分布
  • 评估你现有的 prompt 在 Diffusion 上的表现,可能要做小幅调整(Diffusion 对 prompt 长度更不敏感,但对结构化 instruction 同样敏感)

研究者

  • LLaDA 的开源给了一个完整起点,可以从这里起手做中文扩散 LM、多模态扩散 LM、扩散 + reasoning 等方向
  • “扩散 LM 上的 RLHF”是个明显未开发的方向
  • 扩散 LM 的可解释性(每一步去噪在做什么)是值得做的研究

CTO / 决策者

  • 不要把扩散 LLM 当成”另一个模型选择”,把它当成”延迟数量级降低这件事终于变成产品输入”
  • 评估你的产品里有哪些功能是被延迟拖累的,那些就是潜在的产品创新机会
  • 不要 all-in,但也不要不试

一句话收束

Transformer 没退场,但「LLM 一定要从左到右一个 token 一个 token 输出」这个隐含假设,在 2026 年第一次被产线级地打破。当延迟从能力的代价变成可设计的变量,产品形态会比技术规格本身变化得更深。