开源 LLM 2026 H1 格局
flowchart LR
A["开源 LLM 2026 H1"]
A --> B["分类:前沿探索"]
A --> C["关键词:Llama 4"]
A --> D["关键词:DeepSeek"]
A --> E["关键词:Qwen"]
A --> F["关键词:Hermes"]
一年前讨论开源 LLM,核心问题还是“能不能追上闭源”。到 2026 H1,更有意义的问题已经变成:在不同赛道里,开源模型到底能做到哪一档,以及你是否真的需要为闭源最强那一点差距付费。
修订说明(2026-04-18):本文一稿对开源时间线有一些不准确的描述(把 Llama 4 当成 H1 末发布,Qwen 系列版本号混淆)。已据各家官方资料纠正,并补入 GLM-5.1 (744B)、Gemma 4、Qwen3-Coder-480B 等 H1 关键 release。
这篇文章会讲什么
040b 模型选型 v2 已经把 GPT-5.4 / Claude / Gemini / 开源模型放在统一矩阵里讨论。本文是开源侧的”独立放大”——只回答这几个问题:
- 开源 LLM 2026 H1 在哪些维度已经反超闭源?哪些仍有差距?
- 按 6 条赛道分别看,谁是当前 SOTA?
- 本地部署的真实成本(硬件 + 推理 + 维护)是多少?
- 企业怎么决定用闭源还是开源?决策树
先说结论
- 开源已经不是“只有便宜,没有强”:至少在 coding、reasoning、本地部署和特定 agent 场景里,开源已经足够进入严肃选型
- Reasoning:DeepSeek-R1(2025-01 发布、05-28 R1-0528 更新)是开源 reasoning 民主化的起点;2026 内多家继续强化
- Coding:Qwen、GLM、Hermes 这一组已经把开源 coding 拉到真正可用区间,但顶级闭源在稳定性和长尾问题上通常仍略强
- Agent:Hermes 4 (2025-08,405B / 70B / 14B) + Hermes-4.3-Seed-36B (2025-12-03) 是开源 agentic SOTA;GLM-5.1 可跑长达 8 小时的 plan/execute/test/fix 自主循环
- 多模态:视觉理解的开源选择明显变强,但视频生成和更复杂的多模态代理仍普遍落后于最强闭源
- 小型 / 本地:端侧与小模型的体验比一年前实用得多,但“够用”与“替代云端最强模型”仍是两回事
- 新进开源:Gemma 4、GLM-5.1、Qwen3-Coder 系列让 2026 H1 的开源供给明显变厚
1. 六条赛道当前 SOTA (2026 H1,截至 2026-04-18)
| 赛道 | 开源 SOTA | 闭源同档 | 与闭源差距 | 推荐场景 |
|---|---|---|---|---|
| Frontier general | GLM-5.1 (Z.ai, 744B MoE, MIT, 2026-04-07) / DeepSeek V3.5 / Llama 4 Maverick | GPT-5.4 / Claude Opus 4.7 | SWE-Bench Pro 已反超;多数 benchmark 仍 ~3–5% 差 | 大企业自建、强合规 |
| Reasoning | DeepSeek-R1(2025-01)+ R1-0528 / Qwen3.6 thinking | GPT-5.4 reasoning / Claude Opus 4.7 / Mythos | <3% | 研究、复杂推理 |
| Coding | Qwen3-Coder-480B-A35B / Qwen3.6-35B-A3B (73.4 SWE-Verified) / Hermes-4.3-36B / GLM-5.1 | Claude Opus 4.7 (87.6 SWE-Verified) / Sonnet 4.6 / GPT-5.3-Codex (85.0) | ~10–15% on SWE-Verified;Pro 已被 GLM-5.1 反超 | 代码助手本地化 |
| Agent / Tool Use | Hermes 4 (405B/70B/14B, 2025-08) + Hermes-4.3-Seed-36B (2025-12-03) | Claude Opus 4.7 + Cowork | ~3–5% | 自托管 Agent |
| 多模态视觉 | Llama 4 Scout (17B 激活、10M 上下文) / Qwen3-VL (72B) | GPT-5.4 / Gemini 3.1 Pro / Mythos | ~5% | 文档理解 / OCR |
| 多模态视频生成 | HunyuanVideo 2 / Wan 2 | Sora 2 / Veo 3.1 | 一档 | 私有部署、批量生成 |
| 小型 / 端侧 | Apple Intelligence (~3B 端) + Phi-4 (14B) + Qwen3.6-35B-A3B (3B 激活) + Gemma 4 (27B/26B, 2026-04-01) | GPT-5.4 mini / Claude Haiku 4 | <2% | 端侧、边缘、隐私敏感 |
1.1 怎么读这张表
- “差距”是公开 benchmark 上的差距,不一定等于真实生产场景的差距
- “开源 SOTA”会快速变化——上面列的是 2026-04-18 的状态,下次刷新可能是 6 周后
- MoE 架构是开源前沿的主流:DeepSeek、Llama 4 Maverick、Mistral Magistral 都是 MoE,参数量大但激活参数少,推理成本可控
2. 各赛道详解
2.1 Frontier General:GLM-5.1 / DeepSeek V3.5 / Llama 4 Maverick
GLM-5.1(Z.ai, 2026-04-07, MIT License, 744B MoE)是 H1 末开源 frontier 的最大事件。它是 GLM-5 的 post-training 升级,在 SWE-Bench Pro 拿 58.4 反超 GPT-5.4 (57.7) / Claude Opus 4.6 (57.3);Code Arena 进入全球 top 3(仅次于 Claude Opus 4.6 thinking / 4.6);可以自主跑长达 8 小时的 plan/execute/test/fix/optimize 循环、上百次迭代、上千次 tool call。Z.ai 在 2026-01-08 完成港股 IPO 成为首家上市的 foundation model 公司(融资约 $558M USD),这是开源派系第一次有了独立公开市场资本支撑。
DeepSeek:V3 在 2025 年初震动行业(训练 ~$5.6M),V3.5 在 2025 内更新(推理速度 2× 提升);R1 在 2025-01 第一次把 reasoning 民主化、05-28 R1-0528 版本继续优化。DeepSeek 这一系最大的意义,不只是某次刷新,而是它把“高质量 reasoning 可以开源化”这件事做成了现实。
Llama 4(Meta, 2025-04-05 发布,Scout + Maverick;Behemoth 仍在训练中):
- Scout:17B 激活 + 16 experts,10M 上下文,单 H100 可跑
- Maverick:17B 激活 + 128 experts,benchmark 与 GPT-4o / Gemini 2.0 Flash 同档或反超
- Behemoth:288B 激活,仍在训练;STEM 已超 GPT-4.5 / Claude Sonnet 3.7 / Gemini 2.0 Pro
H1 内 Meta 持续 fine-tune Scout/Maverick,把多模态能力下沉到 WhatsApp / Instagram / Messenger 内。
适合谁:大企业自建 frontier、强合规场景(金融 / 医疗)、不接受数据出域的研究机构。GLM-5.1 因为 MIT license 是 2026 H1 商用最宽松的 frontier 开源选择。
2.2 Reasoning:DeepSeek-R1 (R1-0528) / Qwen3.6 thinking
DeepSeek-R1 在 2025-01 第一次震动行业(用纯 RL 训出 reasoning 能力),R1-0528 (2025-05-28) 是后续重要更新。当前在 AIME / GPQA / MATH 上接近 GPT-5.4 reasoning。
为什么重要:
- 第一个把”reasoning”民主化的开源模型——以前只有 OpenAI o 系列 / Claude 能做长 thinking
- 训练方法论开源 (R1 技术报告),整个学界都在跟进
- 单卡 H100 可以跑 distill 版本,门槛大幅降低
注意:R1 / R1-0528 全量 671B 推理成本仍然高,本地部署不现实。distill 出来的 8B / 32B 版本是大多数人实际能用的。
2.3 Coding:Qwen3-Coder 系列 + Hermes-4.3-Seed-36B + GLM-5.1
H1 内 Alibaba 推出多个 Qwen 系列 Coding 模型,加上 Z.ai 的 GLM-5.1,开源 coding 一档已经非常厚:
- Qwen3-Coder-480B-A35B-Instruct:开源 agentic coding 最强,与 Claude Sonnet 同档
- Qwen3.6-35B-A3B:MoE,35B 总参 + 3B 激活,SWE-Bench Verified 73.4(前一代 Qwen3.5-35B-A3B 是 70.0)
- Qwen3-Coder-Plus:SWE-Bench 69.6,强化 terminal task 与 safer code generation
- Qwen3-Coder-Next:基于 Qwen3-Next-80B-A3B-Base 的 hybrid attention-MoE 架构,3B 激活,SWE-Verified > 70%
- Hermes-4.3-Seed-36B (2025-12-03):因 Hermes Agent (072) 大量使用
- GLM-5.1:Code Arena 全球 top 3,是开源 coding 进入 frontier 的关键事件
H1 关键变化:
- 3B 激活就能跑出 73.4 SWE-Verified(Qwen3.6)—— 是 H1 最重要的”小模型大能力”案例
- 本地部署可行:35B-A3B 在 RTX 5090 (32GB) 上很流畅
- 生态完整:Cursor / Claude Code / Aider / Continue 都已原生支持开源 model 接入
真实差距:纯模型能力,开源仍距 Claude Opus 4.7 (SWE-Verified 87.6) / GPT-5.3-Codex (85.0) 约 10–15%;但 SWE-Bench Pro 已被 GLM-5.1 反超闭源;scaffolding(Cursor 3.1 / Claude Code)对最终能力影响超过模型本身。
2.4 Agent / Tool Use:Hermes 4 系列
Hermes 4 在 2025-08 发布(405B / 70B / 14B 三档),Hermes-4.3-Seed-36B 在 2025-12-03 发布。在工具调用 / refusal 抗性 / 长 conversation 一致性上是开源 SOTA。参见 072 Hermes Agent,已在 H1 大量被自托管 Agent 使用。
特点:
- RefusalBench 上接近 0——基本不会拒绝合理请求(这是某些场景刚需)
- 训练方法论开源:使用了 Psyche distributed network(去中心化训练),是 H1 训练范式的一个有趣实验
- 专为 agentic 场景训练:tool call format / multi-turn / state consistency 都是优化目标
适合谁:自托管 Hermes Agent / OpenClaw / 私有 Agent、不接受 API 调用合规场景。
2.5 多模态视觉:Llama 4 Scout / Qwen3-VL
Llama 4 Scout(17B 激活、16 experts、10M 上下文、单 H100 可跑)是 H1 视觉 + 长上下文综合最强的开源选择。Qwen3-VL 72B 在中文 OCR / 文档理解上反超闭源。
H1 关键变化:
- OCR / 文档理解 上和 GPT-5.4 / Gemini 3.1 Pro 同档(Gemini 3.1 Pro 上下文 1M、GPQA 94.3)
- 视频理解(多帧 reasoning)开源仍弱一档,但已有 LLaVA-Video 等专用模型
- 3D / 空间 reasoning 仍是闭源专长,参见 083 World Models(如已发布)
2.6 多模态视频生成:HunyuanVideo 2 / Wan 2
参见 077 Video Generation 2026。HunyuanVideo 2(腾讯,2026 Q1)和 Wan 2(阿里,Q1 末)是开源视频生成的两个主流。
差距:
- 比 Sora 2 / Veo 3 慢一档(一致性、长度、音频)
- 但开源 + 可自托管对企业很重要
- 自托管成本:8×H100 才能跑得动 HunyuanVideo 2,门槛高
2.7 小型 / 端侧 reasoning:Apple Intelligence / Phi-4 / Qwen3.6-A3B / Gemma 4
H1 最让人兴奋的方向之一:reasoning / agent 能力下沉到能在端侧跑。
- Apple Intelligence(iOS 18+ / macOS Sequoia):~3B 端侧 + 私有云大模型;2-bit 量化 + grouped-query attention,3.7-bit hybrid 压缩;A17 Pro / M3 Neural Engine 跑得动
- Phi-4 (14B):微软 2024 末推出,2026 H1 持续 fine-tune,在 MMLU-Pro 上接近 70B 模型
- Qwen3.6-35B-A3B:3B 激活就能拿 SWE-Verified 73.4,是 H1 “小激活大能力” 的标杆
- Gemma 4 (Google, 2026-04-01 开源, 27B / 26B 变体):Google 在 H1 末新一波开源动作,数字未完全展开但是 Gemma 系列最强一代
- MiMo Pro (小米):在 phone 上跑出 reasoning,是端侧厂商自研的代表
意义:之前要 reasoning 往往得上 70B 以上的大模型,现在 14B 或更小激活规模的模型也开始进入“能认真用”的区间。这让本地、端侧和隐私敏感场景第一次有了更现实的选择。
3. 本地部署的真实成本
3.1 硬件门槛
| 模型规模 | 推荐硬件 (Q4 量化) | 一次性硬件成本 | 推理速度 |
|---|---|---|---|
| 3B (MiMo v2 Pro) | RTX 4060 / Mac M3 | <$1K | 50+ tok/s |
| 14B (Phi-4) | RTX 4090 / Mac M3 Max | ~$2K | 30+ tok/s |
| 32B (Qwen3.5 Coder) | RTX 5090 (32GB) / Mac M3 Ultra | ~$3K | 20–30 tok/s |
| 36B (Hermes 4.3) | RTX 5090 / Mac M3 Ultra | ~$3K | 20+ tok/s |
| 70B (Llama 4 dense) | 2×RTX 5090 / H100 | ~$8K / $30K | 15+ tok/s |
| 109B MoE (Llama 4 Scout) | H100 80GB (FP8) | ~$30K | 30+ tok/s |
| 400B MoE (Llama 4 Maverick) | 2×H100 / 8×L40S | ~$60K+ | 20+ tok/s |
| 671B MoE (DeepSeek-V3.5) | 8×H100 (FP8) | ~$200K+ | 30+ tok/s |
3.2 月运行成本(电 + 维护,估算)
| 配置 | 月电费 | 维护 | 总月成本 |
|---|---|---|---|
| 单 RTX 5090 (家用) | ~$30 | 0 | ~$30 |
| 2×H100 (云租用) | n/a | n/a | $10K–15K |
| 8×H100 集群 | ~$2K | 工程 | $30K+ |
3.3 自托管 vs API 决策点
API 更划算的临界点:日 token 量 < 100M
具体例子:
- 一个 100 工程师的公司,全员用 Claude Code 1.0:日均 ~50M token → API 月成本 ~$3K → API 划算
- 一个客服系统,日均 1B token → API 月成本 ~$60K → 自托管 8×H100 大概 $30K,划算
- 一个数据 pipeline 跑批量,日均 10B token → API 月成本 ~$600K → 必须自托管
自托管必须 + 不可妥协的场景:
- 数据合规(金融 / 医疗 / 政府)
- 无外网(内部网 / 涉密)
- 极低延迟(实时语音 / 实时游戏)
- 强 customization(fine-tune、特殊词表)
4. 企业决策树
你的核心需求是什么?
┌─ 数据不能出域 / 合规要求强
│ └─ 自托管开源
│ ├─ frontier 能力 → DeepSeek-V3.5 / Llama 4 Maverick (8×H100+)
│ ├─ coding 为主 → Qwen3.5 Coder 32B (单 H100 / RTX 5090)
│ ├─ Agent 为主 → Hermes 4.3 36B
│ └─ 端侧 → MiMo v2 Pro / Phi-4
│
├─ 成本敏感 + 数据可出域
│ ├─ 高质量 → Sonnet 4.6 / Gemini 3.1 Flash
│ └─ 极低成本 → Kimi K2.5 / DeepSeek API / Together AI 上的开源模型
│
├─ 质量优先 + 不在乎成本
│ └─ GPT-5.4 / Claude Opus 4.7 / Gemini 3.1 Pro
│
├─ 完全离线 / 端侧
│ └─ MiMo v2 Pro (3B) / Phi-4 (14B) / Qwen3 0.6B
│
└─ 实验 / 研究
└─ 用所有开源模型对比,重点关注最新 release
5. 几个常被问的问题
5.1 “开源真的能在生产用吗”
到 2026 H1 答案是 是——前提是你的场景不是 frontier、有合理预算 / 工程能力。
具体:
- 如果你做客服 / 内部工具 / 数据分析 → 开源 ok
- 如果你做世界级 AI 产品(最强 reasoning / 最长上下文 / 最新多模态)→ 仍需要闭源
- 如果你做 agentic 应用 → Hermes 4.3 已经够用
- 如果你做实时语音(参见 076)→ 仍需要闭源(开源实时语音不成熟)
5.2 “我应该 fine-tune 还是用通用模型”
H1 的答案大变了。一年前 fine-tune 是常见操作;现在:
- 通用 SOTA + 好 prompt + RAG 通常已经够用
- fine-tune 主要用于:极特殊领域 / 强格式约束 / 极小模型(让 3B 学会做特定事)
- LoRA 仍然有用,但在 H1 已经被 prompt + RAG 替代了大部分场景
5.3 “MoE 模型适合自托管吗”
MoE 的优势是”参数量大但激活参数少”,但它需要把全部参数 load 到显存。所以:
- DeepSeek 671B MoE 看起来”激活 37B 等于 37B 模型成本”,但你需要 ~700GB 显存才能 load
- MoE 适合 超大集群批量推理,不适合单机
如果你只有单卡 / 双卡,dense 模型(Qwen3.5 Coder 32B / Hermes 4.3 36B)更现实。
5.4 “开源模型的安全 / 越狱风险”
开源模型默认 refusal 训练比闭源弱(Hermes 4.3 在 RefusalBench 上接近 0 是 by design),所以:
- 不要直接把开源模型暴露给最终用户——必须有 guardrails 层(参见 044b)
- prompt injection / jailbreak 抵抗 通常比闭源弱
- 企业部署必须前置内容审核 + 后置内容过滤
6. 与其他主题的关系
- 与 040b 模型选型 v2 的关系:那篇是闭源 + 开源混合矩阵,本文是开源放大版
- 与 050b 新一代模型 v2 的关系:那篇讲架构趋势,本文讲具体模型现状
- 与 072 Hermes Agent 的关系:Hermes 4.3 是其底层模型
- 与 074 Diffusion LLM 的关系:扩散 LLM 中的 LLaDA 也是开源
- 与 076 Voice AI 的关系:开源实时语音仍是空白
- 与 077 Video Generation 2026 的关系:HunyuanVideo 2 / Wan 2 是开源视频生成
小结
2026 H1 是开源 LLM “从追赶到分轨竞争”的转折期:
- Frontier 反超已经不是新闻——DeepSeek-V3.5 / Llama 4 Maverick 在某些 benchmark 已经追平
- Reasoning / Coding / Agent 三条线开源是 SOTA 接近闭源
- 多模态视频 / 实时语音 / 极长上下文 仍是闭源专长
- 小型 reasoning 下沉到 14B / 3B,端侧第一次有可用方案
- 企业决策从”用什么”变成”在哪条赛道用开源 vs 闭源” 的具体场景判断
记住一个简单原则:
不存在”开源更好”或”闭源更好”——存在的是”在你的具体场景里哪个更划算 / 更合规 / 更可控”。
如果你团队过去因为”开源不够强”一直没认真看,2026 H1 是一个该重新评估的时间点。
延伸阅读
- 040b 模型选型 v2 — 闭源 + 开源混合矩阵
- 050b 新一代模型 v2 — 模型架构趋势
- 072 Hermes Agent — Hermes 4.3 的承载产品
- 074 Diffusion LLM — LLaDA 等开源扩散模型
- DeepSeek 官方 | Llama 4 介绍 | Qwen 系列 | Hermes 4.3