开源 LLM 2026 H1 格局:从「追赶」到「分轨竞争」

2026 H1 是开放权重 / 开源 LLM 第一次在多个赛道逼近 frontier 闭源模型的半年。Llama 4、DeepSeek、Qwen、GLM、Gemma 等模型在 reasoning、coding、Agent、小型本地等维度形成分轨竞争。本文按六条赛道梳理现状,给出选型决策树与本地部署成本参考。

11 min read 发布:2026/04/13 Part of AI Research · Ch. 8
← 上一层级:学习路径 · Part 07 · 前沿模型与新交互

开源 LLM 2026 H1 格局

flowchart LR
  A["开源 LLM 2026 H1"]
  A --> B["分类:前沿探索"]
  A --> C["关键词:Llama 4"]
  A --> D["关键词:DeepSeek"]
  A --> E["关键词:Qwen"]
  A --> F["关键词:Hermes"]

一年前讨论开源 LLM,核心问题还是“能不能追上闭源”。到 2026 H1,更有意义的问题已经变成:在不同赛道里,开源模型到底能做到哪一档,以及你是否真的需要为闭源最强那一点差距付费。

修订说明(2026-04-18):本文一稿对开源时间线有一些不准确的描述(把 Llama 4 当成 H1 末发布,Qwen 系列版本号混淆)。已据各家官方资料纠正,并补入 GLM-5.1、Gemma 4、Qwen3-Coder 等 H1 关键 release。

口径说明(2026-05-25):本文把“开源”作为行业俗称使用;严格来说,Meta Llama、部分 GLM / Qwen / DeepSeek 模型更准确应叫“开放权重 / open-weight”。许可证、商用限制、再分发限制必须以各家官方模型卡和 license 为准。


这篇文章会讲什么

040 模型选型策略 已经把 GPT-5.4 / Claude / Gemini / 开源模型放在统一矩阵里讨论。本文是开源侧的”独立放大”——只回答这几个问题:

  1. 开源 LLM 2026 H1 在哪些维度已经反超闭源?哪些仍有差距?
  2. 按 6 条赛道分别看,谁是当前 SOTA?
  3. 本地部署的真实成本(硬件 + 推理 + 维护)是多少?
  4. 企业怎么决定用闭源还是开源?决策树

先说结论

  • 开源 / 开放权重已经不是“只有便宜,没有强”:至少在 coding、reasoning、本地部署和特定 agent 场景里,已经足够进入严肃选型
  • Reasoning:DeepSeek-R1 是开放 reasoning 模型民主化的起点;2026 内多家继续强化
  • Coding:Qwen、GLM、Hermes 这一组已经把开源 coding 拉到真正可用区间,但顶级闭源在稳定性和长尾问题上通常仍略强
  • Agent:Hermes、Qwen-Coder、GLM 等开放模型开始针对 tool use、长程 coding 和多轮任务优化,但真实可靠性仍要看你自己的 harness
  • 多模态:视觉理解的开源选择明显变强,但视频生成和更复杂的多模态代理仍普遍落后于最强闭源
  • 小型 / 本地:端侧与小模型的体验比一年前实用得多,但“够用”与“替代云端最强模型”仍是两回事
  • 新进开源:Gemma 4、GLM-5.1、Qwen3-Coder 系列让 2026 H1 的开源供给明显变厚

1. 六条赛道当前 SOTA (2026 H1,截至 2026-04-18)

赛道开源 SOTA闭源同档与闭源差距推荐场景
Frontier generalGLM-5.1 (Z.ai, 754B MoE, MIT, 2026-04) / DeepSeek V3.2 / Llama 4 MaverickGPT-5.4 / Claude Opus 4.7个别 benchmark 可追平或反超;综合稳定性仍需私有评估大企业自建、强合规
ReasoningDeepSeek-R1 / DeepSeek-V3.2 / Qwen3.5 thinking 系列GPT-5.4 reasoning / Claude Opus 4.7 / Mythos公开 benchmark 接近,复杂任务稳定性仍有差距研究、复杂推理
CodingQwen3-Coder-480B-A35B / Qwen3.5 系列 / Hermes / GLM-5.1Claude Opus 4.7 / Sonnet 4.6 / GPT-5.3-Codex公开榜单差距收窄;真实仓库看 harness代码助手本地化
Agent / Tool UseHermes 4 (405B/70B/14B, 2025-08) + Hermes-4.3-Seed-36B (2025-12-03)Claude Opus 4.7 + Cowork~3–5%自托管 Agent
多模态视觉Llama 4 Scout (17B 激活、10M 上下文) / Qwen3-VL (72B)GPT-5.4 / Gemini 3.1 Pro / Mythos~5%文档理解 / OCR
多模态视频生成HunyuanVideo 2 / Wan 2Sora 2 / Veo 3.1一档私有部署、批量生成
小型 / 端侧Phi-4、Qwen 小模型、Gemma 4(31B / 26B MoE 等)、端侧专用模型GPT-5.4 mini / Claude Haiku 4简单任务接近,复杂任务差距仍明显端侧、边缘、隐私敏感

1.1 怎么读这张表

  • “差距”是公开 benchmark 上的差距,不一定等于真实生产场景的差距
  • “开源 SOTA”会快速变化——上面列的是 2026-05-25 的状态,下次刷新可能是几周后
  • MoE 架构是开放前沿的主流:DeepSeek、Llama 4 Maverick、GLM、Qwen 等都在用 MoE / 稀疏激活思路,参数量大但激活参数少,推理成本更可控

2. 各赛道详解

2.1 Frontier General:GLM-5.1 / DeepSeek V3.2 / Llama 4 Maverick

GLM-5.1(Z.ai, 2026-04, MIT License, 754B MoE)是 H1 末开放权重 frontier 的重要事件。Z.ai 官方文档给出的口径是:它在 SWE-Bench Pro 等 coding benchmark 上达到头部水平,适合长程 coding / agentic coding 场景。这里要注意两点:第一,单个 benchmark 领先不等于所有真实仓库都领先;第二,开放权重模型的价值往往来自“可部署、可控、可降本”,而不只是榜单第一。

DeepSeek:R1 在 2025-01 把 reasoning 模型的开放讨论推到台前;V3.2 / V3.2-Speciale 则把 reasoning、tool use 和 agent 场景继续往前推。DeepSeek 这一系最大的意义,不只是某次刷新,而是它把“高质量 reasoning 可以开放权重化”这件事做成了现实。

Llama 4(Meta, 2025-04-05 发布,Scout + Maverick;Behemoth 仍在训练中):

  • Scout:17B 激活 + 16 experts,10M 上下文,单 H100 可跑
  • Maverick:17B 激活 + 128 experts,benchmark 与 GPT-4o / Gemini 2.0 Flash 同档或反超
  • Behemoth:288B 激活,仍在训练;STEM 已超 GPT-4.5 / Claude Sonnet 3.7 / Gemini 2.0 Pro

H1 内 Meta 持续 fine-tune Scout/Maverick,把多模态能力下沉到 WhatsApp / Instagram / Messenger 内。

适合谁:大企业自建 frontier、强合规场景(金融 / 医疗)、不接受数据出域的研究机构。GLM-5.1 因为 MIT license 友好,适合进入商用评估池,但仍要看模型卡、权重条款和服务条款。

2.2 Reasoning:DeepSeek-R1 / DeepSeek-V3.2 / Qwen thinking 系列

DeepSeek-R1 在 2025-01 第一次震动行业(用 RL 强化 reasoning 能力),后续 V3.2 / V3.2-Speciale 又把 reasoning-first 和 agent 场景继续向前推。当前在数学、代码和多步工具任务上,开放模型已经能进入严肃对比。

为什么重要:

  • 第一个把”reasoning”民主化的开源模型——以前只有 OpenAI o 系列 / Claude 能做长 thinking
  • 训练方法论公开 (R1 技术报告),整个学界都在跟进
  • 单卡 H100 可以跑 distill 版本,门槛大幅降低

注意:R1 / R1-0528 全量 671B 推理成本仍然高,本地部署不现实。distill 出来的 8B / 32B 版本是大多数人实际能用的。

2.3 Coding:Qwen3-Coder 系列 + Hermes-4.3-Seed-36B + GLM-5.1

H1 内 Alibaba 推出多个 Qwen 系列 Coding 模型,加上 Z.ai 的 GLM-5.1,开源 coding 一档已经非常厚:

  • Qwen3-Coder-480B-A35B-Instruct:Qwen 官方定位为最强 agentic coding 模型之一,适合进入代码助手评估池
  • Qwen3 / Qwen3.5 系列:MoE 与 thinking / non-thinking 双模式让 coding、agent、工具调用能力更容易按成本分层
  • Qwen3-Coder-Plus / Next:强化 terminal task、agentic coding 与 safer code generation
  • Hermes-4.3-Seed-36B (2025-12-03):因 Hermes Agent (072) 大量使用
  • GLM-5.1:Z.ai 官方 benchmark 口径显示 coding 能力进入头部区间,是开放模型进入 frontier coding 评估池的关键事件

H1 关键变化:

  • 小激活参数模型的性价比提升明显——这是 H1 最重要的”小模型大能力”案例
  • 本地部署可行性提高:30B/35B 级别 MoE 或 dense coder 模型已经能进入单机/小集群评估
  • 生态完整:Cursor / Claude Code / Aider / Continue 都已原生支持开源 model 接入

真实差距:纯模型能力,开放模型和最强闭源仍有差距;但在某些 coding benchmark 上差距已小到需要看具体 harness、任务分布和私有仓库。scaffolding(计划、编辑、测试、回滚、上下文管理)对最终能力的影响常常超过模型本身。

2.4 Agent / Tool Use:Hermes 4 系列

Hermes 4 在 2025-08 发布(405B / 70B / 14B 三档),Hermes-4.3-Seed-36B 在 2025-12-03 发布。在工具调用 / refusal 抗性 / 长 conversation 一致性上是开源 SOTA。参见 072 Hermes Agent,已在 H1 大量被自托管 Agent 使用。

特点:

  • RefusalBench 上接近 0——基本不会拒绝合理请求(这是某些场景刚需)
  • 训练方法论开源:使用了 Psyche distributed network(去中心化训练),是 H1 训练范式的一个有趣实验
  • 专为 agentic 场景训练:tool call format / multi-turn / state consistency 都是优化目标

适合谁:自托管 Hermes Agent / OpenClaw / 私有 Agent、不接受 API 调用合规场景。

2.5 多模态视觉:Llama 4 Scout / Qwen3-VL

Llama 4 Scout(17B 激活、16 experts、10M 上下文、单 H100 级硬件可评估)是 H1 视觉 + 长上下文综合很强的开放权重选择。Qwen-VL / Qwen3.5 多模态系列则在中文 OCR、文档理解和本地化生态上很有优势。

H1 关键变化:

  • OCR / 文档理解 上和 GPT-5.4 / Gemini 3.1 Pro 同档(Gemini 3.1 Pro 上下文 1M、GPQA 94.3)
  • 视频理解(多帧 reasoning)开源仍弱一档,但已有 LLaVA-Video 等专用模型
  • 3D / 空间 reasoning 仍是闭源专长,参见 083 World Models(如已发布)

2.6 多模态视频生成:HunyuanVideo 2 / Wan 2

参见 077 Video Generation 2026。HunyuanVideo / Wan 等中文开放生态是自托管视频生成的重要方向,但许可证、硬件门槛和版本可用性要逐项核对。

差距:

  • 比 Sora 2 / Veo 3 慢一档(一致性、长度、音频)
  • 开放权重 + 可自托管对企业很重要
  • 自托管成本:8×H100 才能跑得动 HunyuanVideo 2,门槛高

2.7 小型 / 端侧 reasoning:Phi-4 / Qwen 小模型 / Gemma 4

H1 最让人兴奋的方向之一:reasoning / agent 能力下沉到能在端侧跑

  • Phi-4 (14B):微软 2024 末推出,2026 H1 持续 fine-tune,在 MMLU-Pro 上接近 70B 模型
  • Qwen 小模型 / MoE 小激活模型:在成本敏感的 coding、分类、工具路由场景里越来越实用
  • Gemma 4 (Google, 2026-04-02 发布,31B / 26B MoE 与端侧变体):Google 在 H1 末新一波开放模型动作
  • MiMo Pro (小米):在 phone 上跑出 reasoning,是端侧厂商自研的代表

意义:之前要 reasoning 往往得上 70B 以上的大模型,现在 14B 或更小激活规模的模型也开始进入“能认真用”的区间。这让本地、端侧和隐私敏感场景第一次有了更现实的选择。


3. 本地部署的真实成本

3.1 硬件门槛

模型规模推荐硬件 (Q4 量化)一次性硬件成本推理速度
3B (MiMo v2 Pro)RTX 4060 / Mac M3<$1K50+ tok/s
14B (Phi-4)RTX 4090 / Mac M3 Max~$2K30+ tok/s
32B (Qwen3.5 Coder)RTX 5090 (32GB) / Mac M3 Ultra~$3K20–30 tok/s
36B (Hermes 4.3)RTX 5090 / Mac M3 Ultra~$3K20+ tok/s
70B (Llama 4 dense)2×RTX 5090 / H100~$8K / $30K15+ tok/s
109B MoE (Llama 4 Scout)H100 80GB (FP8)~$30K30+ tok/s
400B MoE (Llama 4 Maverick)2×H100 / 8×L40S~$60K+20+ tok/s
671B+ MoE (DeepSeek / GLM 级)8×H100 级别或更高~$200K+取决于量化、并发和 serving 框架

3.2 月运行成本(电 + 维护,估算)

配置月电费维护总月成本
单 RTX 5090 (家用)~$300~$30
2×H100 (云租用)n/an/a$10K–15K
8×H100 集群~$2K工程$30K+

3.3 自托管 vs API 决策点

API 更划算的临界点:日 token 量 < 100M

具体例子:

  • 一个 100 工程师的公司,全员用 Claude Code 1.0:日均 ~50M token → API 月成本 ~$3K → API 划算
  • 一个客服系统,日均 1B token → API 月成本 ~$60K → 自托管 8×H100 大概 $30K,划算
  • 一个数据 pipeline 跑批量,日均 10B token → API 月成本 ~$600K → 必须自托管

自托管必须 + 不可妥协的场景

  • 数据合规(金融 / 医疗 / 政府)
  • 无外网(内部网 / 涉密)
  • 极低延迟(实时语音 / 实时游戏)
  • 强 customization(fine-tune、特殊词表)

4. 企业决策树

你的核心需求是什么?

┌─ 数据不能出域 / 合规要求强
│  └─ 自托管开源
│     ├─ frontier 能力 → DeepSeek-V3.2 / Llama 4 Maverick / GLM-5.1 (大显存/集群)
│     ├─ coding 为主 → Qwen3-Coder / GLM / Hermes coder 模型
│     ├─ Agent 为主 → Hermes 4.3 36B
│     └─ 端侧 → MiMo v2 Pro / Phi-4

├─ 成本敏感 + 数据可出域
│  ├─ 高质量 → Sonnet 4.6 / Gemini 3.1 Flash
│  └─ 极低成本 → Kimi K2.5 / DeepSeek API / Together AI 上的开源模型

├─ 质量优先 + 不在乎成本
│  └─ GPT-5.4 / Claude Opus 4.7 / Gemini 3.1 Pro

├─ 完全离线 / 端侧
│  └─ MiMo v2 Pro (3B) / Phi-4 (14B) / Qwen3 0.6B

└─ 实验 / 研究
   └─ 用开放模型对比,重点关注最新 release 与许可证

5. 几个常被问的问题

5.1 “开源真的能在生产用吗”

到 2026 H1 答案是 ——前提是你的场景不是 frontier、有合理预算 / 工程能力。

具体:

  • 如果你做客服 / 内部工具 / 数据分析 → 开源 ok
  • 如果你做世界级 AI 产品(最强 reasoning / 最长上下文 / 最新多模态)→ 仍需要闭源
  • 如果你做 agentic 应用 → Hermes 4.3 已经够用
  • 如果你做实时语音(参见 076)→ 仍需要闭源(开源实时语音不成熟)

5.2 “我应该 fine-tune 还是用通用模型”

H1 的答案大变了。一年前 fine-tune 是常见操作;现在:

  • 通用 SOTA + 好 prompt + RAG 通常已经够用
  • fine-tune 主要用于:极特殊领域 / 强格式约束 / 极小模型(让 3B 学会做特定事)
  • LoRA 仍然有用,但在 H1 已经被 prompt + RAG 替代了大部分场景

5.3 “MoE 模型适合自托管吗”

MoE 的优势是”参数量大但激活参数少”,但它需要把全部参数 load 到显存。所以:

  • DeepSeek 671B MoE 看起来”激活 37B 等于 37B 模型成本”,但你需要 ~700GB 显存才能 load
  • MoE 适合 超大集群批量推理,不适合单机

如果你只有单卡 / 双卡,dense 模型(Qwen3.5 Coder 32B / Hermes 4.3 36B)更现实。

5.4 “开源模型的安全 / 越狱风险”

开源模型默认 refusal 训练比闭源弱(Hermes 4.3 在 RefusalBench 上接近 0 是 by design),所以:

  • 不要直接把开源模型暴露给最终用户——必须有 guardrails 层(参见 044
  • prompt injection / jailbreak 抵抗 通常比闭源弱
  • 企业部署必须前置内容审核 + 后置内容过滤

6. 与其他主题的关系


小结

2026 H1 是开源 LLM “从追赶到分轨竞争”的转折期:

  • Frontier 追平 / 局部反超已经不是新闻——DeepSeek-V3.2、GLM-5.1、Llama 4 Maverick 等在某些 benchmark 已经进入同一比较区间
  • Reasoning / Coding / Agent 三条线开放模型正在接近闭源
  • 多模态视频 / 实时语音 / 极长上下文 仍是闭源专长
  • 小型 reasoning 下沉到 14B / 3B,端侧第一次有可用方案
  • 企业决策从”用什么”变成”在哪条赛道用开源 vs 闭源” 的具体场景判断

记住一个简单原则:

不存在”开源更好”或”闭源更好”——存在的是”在你的具体场景里哪个更划算 / 更合规 / 更可控”。

如果你团队过去因为”开源不够强”一直没认真看,2026 H1 是一个该重新评估的时间点。


延伸阅读