Agent Benchmark 2026 H1 综合横评
flowchart LR
A["Agent Benchmark 2026 H1"]
A --> B["分类:工程与生产"]
A --> C["关键词:SWE-bench"]
A --> D["关键词:OSWorld"]
A --> E["关键词:WebArena"]
A --> F["关键词:评估天花板"]
一年前选 Coding Agent,第一句话经常是”它在 SWE-bench 上多少分”。到 2026-04,Claude Opus 4.7 已经在 SWE-Bench Verified 拿到 87.6%、GPT-5.3-Codex 拿到 85.0%,top 几家差距小于 5%。同时 OpenAI 推出 GDPval(44 个真实职业的”专业产出”评测)让评估从 “做对题” 转向 “能否替代真人工作”。Agent benchmark 进入了一个新阶段:老 benchmark 集体逼近天花板,新 benchmark 在重新定义”Agent 能不能做事”。
修订说明(2026-04-18):本文一稿对 SWE-Bench Verified top 写成 ~80%(实际 87.6%)、对 OSWorld Verified 站序写错(首位是 Claude Mythos Preview 79.6 而非 GPT-5.4)。已据 swe-bench.com / benchlm.ai 修正,并补入 GDPval、SWE-Bench Pro 两个 H1 关键新 benchmark。
这篇文章会讲什么
041 AI 评估体系 和 071 Eval Harness 实战 已经讲过 evaluation 通用方法论。本文是它们的”行业现状切片”——只回答这几个具体问题:
- 2026 H1 主流 Agent benchmark 当前 SOTA 是什么?谁在 top?
- 每个 benchmark 实际测什么?最常见的误读是什么?
- “刷榜 ROI 见底”是什么意思?接下来该看哪些 benchmark?
- 如何用这些 benchmark 帮你做选型 / 选模型?
先说结论
- Coding (SWE-Bench Verified):top 1 Claude Opus 4.7 = 87.6%(2026-04-16 发布,1M 上下文);GPT-5.3-Codex = 85.0%;差距小于评估噪声;该 benchmark 已基本见顶
- Coding (SWE-Bench Pro):GLM-5.1 (744B 开源, MIT) = 58.4% 反超 GPT-5.4 (57.7) / Claude Opus 4.6 (57.3) —— 是 H1 开源第一次在主流 coding benchmark 上反超闭源
- GUI 操作 (OSWorld Verified):top 1 Claude Mythos Preview = 79.6%(仅 50 家 enterprise 可访问),第二 Holo3-122B-A10B = 78.8%,第三 Claude Opus 4.7 = 78.0%,GPT-5.4 = 75.0%(仍超过人类基线 72.4%)
- 真实工作 (GDPval):OpenAI 在 H1 推出,覆盖 9 大 GDP 行业 / 44 个职业 / 1320 任务;GPT-5.4 拿 ~83%,意味着”在 44 个职业的产出已和专业人士相当”
- 网页操作 (WebArena):~71%(GPT-5.4 + scaffolding);VisualWebArena ~65%+
- 真实自由职业 (SWE-Lancer):Claude Opus 4.7 完成约 $120K/$240K 任务总价;首次把”价格”作为评估维度
- 通用 reasoning:MMLU-Pro / AIME 2025 (DeepSeek-R1: 91.1) / GPQA (Gemini 3.1 Pro: 94.3) 仍有信息量,但和”Agent 能力”的相关性弱于上面三个
1. 主流 Agent Benchmark 现状表 (2026 H1,截至 2026-04-18)
| Benchmark | 测什么 | 当前 SOTA | top 1 是谁 | 一年前 | 是否还有信息量 |
|---|---|---|---|---|---|
| SWE-bench Verified | 真实 GitHub issue 修复(500 个 instance) | 87.6% | Claude Opus 4.7 (2026-04-16, 1M 上下文) | ~50% | 接近见顶,差距 <5% |
| SWE-bench Pro | 更难子集 / 多语言 | 58.4% | GLM-5.1 (Z.ai, 744B, MIT) | 新 benchmark | 仍有空间,开源已反超闭源 |
| SWE-bench Multimodal | 含截图 / UI 的 issue | ~50% | Claude Sonnet 4.6 | 新 benchmark | 仍有空间 |
| SWE-Lancer | 真实自由职业代码任务(含价格) | ~$120K / $240K 任务总价 | Claude Opus 4.7 | 新 benchmark | 仍有空间 |
| GDPval (新) | 9 大行业 / 44 职业 / 1320 任务,专家盲评 | ~83%(已和专业人士同档) | GPT-5.4 | 新 benchmark (OpenAI 推出) | 价值最高的新 benchmark |
| OSWorld (全集) | 桌面 GUI 操作 | ~63% | GPT-5.4 + Operator | ~12% | 仍有空间 |
| OSWorld Verified | OSWorld 人工验证子集 | 79.6% | Claude Mythos Preview(gated) | ~30% | 接近见顶(人类 72.4) |
| OSWorld Verified #2 | — | 78.8% | Holo3-122B-A10B | — | — |
| OSWorld Verified #3 | — | 78.0% | Claude Opus 4.7 | — | — |
| OSWorld Verified #5 | — | 75.0% | GPT-5.4 (with Computer Use 模式原生) | — | — |
| WebArena | 真实网站操作 | ~71% | GPT-5.4 + 自定义 scaffolding | ~25% | 接近见顶 |
| VisualWebArena | 含视觉元素的网页 | ~65% | Claude Sonnet 4.6 | ~15% | 仍有空间 |
| GAIA | 通用 Agent 任务(多步推理 + tool) | ~73% | Claude Opus 4.7 | ~30% | 仍有空间(人类 ~92%) |
| AgentBench | 多场景综合(OS / DB / Web / Game) | ~68% | GPT-5.4 | ~40% | 仍有空间 |
| τ-bench | tool calling + 多轮 + 状态保持 | ~70% (retail) | Claude Opus 4.7 | 新 benchmark | 仍有空间 |
| AIME 2025 | 数学竞赛(非 Agent,但 reasoning 关键参考) | ~95% | GPT-5.4 reasoning | ~85% | 接近见顶 |
| AIME 2025 (开源) | — | 91.1 | DeepSeek-R1 / Mercury 2 | — | — |
| GPQA | 研究生级科学题 | 94.3% | Gemini 3.1 Pro (1M 上下文) | ~70% | 接近见顶 |
1.1 怎么读这张表
- “是否见底” 不是说 benchmark 没用了,而是说继续刷分对选型决策没有差异化信息。SWE-bench Verified top 5 都在 78–82%,你看分差选不出方向
- 新 benchmark(如 SWE-Lancer / τ-bench / SWE-bench Multimodal)的价值,在于它们还能区分模型 / scaffolding 的真实差距
- 同一 benchmark 不同时间段成绩不可直接比——榜单规则、子集划分、模型版本都会变
2. 几个关键 Benchmark 详解:测什么、最常见的误读
2.1 SWE-bench / SWE-bench Verified
测什么:从真实 GitHub 项目(Django、Flask、scikit-learn、sympy 等)抽取 issue + 失败的测试,让 Agent 生成 patch,apply 后跑测试看是否通过。
Verified 子集:原 SWE-bench 中有些 issue 描述不清 / 测试本身有问题,由人工筛过的高质量 500 个 instance。这是工业界用最多的子集。
最常见的误读:
- ❌ “SWE-bench Verified 80% 意味着它能完成我们 80% 的 bug” —— 错。SWE-bench 题目都是已经被定位到具体 repo + 测试覆盖完备的 issue。真实工作里大多数 bug 没那么干净
- ❌ “比榜单分数高的产品就更适合我”——错。榜单第 5 和第 1 之间通常 <3%,被你仓库的工程化差异完全淹没
- ✓ 应该把它当作”模型 + scaffolding 在干净环境下解决软件工程问题的上限指标”,不是”真实生产力指标”
2.2 SWE-Lancer (新)
测什么:从 Upwork 真实自由职业岗位抓取 1488 个软件工程任务,带原始客户支付价格。Agent 完成的任务按是否通过验收 + 任务原价计算分数。
为什么重要:这是第一个把”价格”作为评估维度的 Agent benchmark。意味着:
- 可以直接算出”Agent 完成的工作如果让人做需要多少钱”
- 可以横向比较不同 Agent 的”美元产出”
当前:Claude Opus 4.7 完成约 $120K / $240K 总任务价值(2026 Q2 OpenAI 公开数字),约 50% 任务通过验收。
最常见的误读:
- ❌ “Agent 已经能赚 $120K 了”——错。这是任务总价值,不是 Agent 实际能产生的市场收入
- ❌ “Agent 能取代自由职业开发者”——错。能通过验收的多是定义清晰、范围小的任务
2.3 OSWorld(含 Verified 站序更新)
测什么:让 Agent 在真实操作系统(Ubuntu / macOS / Windows VM)里完成办公任务——发邮件、改 PDF、做 PPT、调系统设置等。
Verified 子集:人工 review 过、确保任务定义清楚、验收脚本可靠的子集。截至 2026-04-16 站序:
| 排名 | 模型 | OSWorld Verified |
|---|---|---|
| 1 | Claude Mythos Preview (Anthropic, gated, 50 家可访问) | 79.6% |
| 2 | Holo3-122B-A10B | 78.8% |
| 3 | Claude Opus 4.7 (公开 API) | 78.0% |
| 5 | GPT-5.4 (含原生 Computer Use 模式) | 75.0% |
| — | 人类基线(普通办公文员限时) | 72.4% |
最常见的误读:
- ❌ “Agent 已经超过人类”——错。人类基线是”普通办公文员、首次接触任务、限时完成”,不是”专家、熟悉系统”。OSWorld Verified 的人类基线是 lower bound
- ❌ “GPT-5.4 一家独大”——错。Claude Mythos Preview / Opus 4.7 都已超过 GPT-5.4,Holo3 等专门 GUI 模型也已上来
- ❌ “Computer Use Agent 可以替代办公人员”——错。Verified 之外的全集只有 ~63%,长尾任务仍弱
- ✓ 应该把它当作”GUI 操作研究的关键里程碑”,不是”商品化指标”
2.3b GDPval(H1 OpenAI 新推、最值得跟踪)
测什么:覆盖 9 大美国 GDP 主要行业(按 BLS 工资数据 + O*NET 任务分析筛选)、44 个偏知识 / 数字工作的职业、共 1320 任务(约每职业 30 个),外加一个 220 任务的”gold” 公开子集。任务由平均 14+ 年从业经验的专家撰写,输出形态包括法律简报、工程蓝图、护理方案、客户支持对话等”真实交付物”。
评估方法:盲测 head-to-head 专家比对(专家判 AI 输出 vs 专家产出哪个好 / 平 / 差),加一个实验性自动评分。
当前 SOTA:GPT-5.4 ~83%(“在 44 个职业的产出已和专业人士相当”)。
为什么重要:
- 第一个把”AI 输出能不能替代真人 deliverable”做成标准化评测
- 包含成本对比:Frontier 模型在这些任务上比真人快 ~100×、便宜 ~100×(不含 oversight / 集成)
- 用 GDP 加权 → 直接给企业一个”AI 能替代多少经济价值”的量化参考
最常见的误读:
- ❌ “AI 在 83% 的工作上已经超过人”——错。GDPval 是任务级 deliverable,不是岗位整体
- ❌ “意味着 83% 的从业者会失业”——错。该评测排除了 oversight、协作、判断、关系等大量真实工作内容
- ✓ 应该把它当作”AI 替代人类单点 deliverable 的能力上限”
2.4 WebArena / VisualWebArena
测什么:让 Agent 在真实网站(GitLab、Reddit、电商、地图等)完成任务——发 issue、找信息、下订单等。
当前 SOTA:~71%(GPT-5.4 + scaffolding)
最常见的误读:
- ❌ “Agent 能完成 71% 的网页任务”——错。WebArena 任务都是预定义、有明确成功标准的;真实任务往往无标准答案
- ✓ 应该把它当作”Web Agent 在结构化网站上的能力上限”
2.5 τ-bench
测什么:模拟真实客服 / 售后场景,Agent 需要多轮对话 + tool calling + 维护状态(订单、用户、库存)。
为什么重要:这是少数把”长 conversation + tool calling + state consistency”作为核心维度的 benchmark。和真实客服 / 销售场景重合度高。
当前 SOTA:~70% (retail subset, Claude Opus 4.7)
2.6 GAIA
测什么:通用 Agent 任务,要求多步推理 + tool 使用 + 网页浏览。题目是人类专家用 ~10 分钟能完成,模型常常做错的事。
当前 SOTA:~73% (Claude Opus 4.7),人类约 92%。
为什么重要:GAIA 是少数人类基线远高于模型 SOTA 的 benchmark,仍然有非常大的 headroom。值得长期跟踪。
3. 刷榜 ROI 见底是什么意思
3.1 现象
到 2026 H1,Coding 方向 / GUI 方向的 benchmark 出现了一个共同模式:
- SWE-Bench Verified top 5 都在 80%+,差距 <5%
- OSWorld Verified top 4 都在 75%+,差距 <5%
- 月度刷榜的提升 <1%
- 新模型发布后涨幅在 1–2% 之间
- 某些子集已经被刷到接近 evaluation 噪声本身(人工 review 时发现”对错”已经很主观)
这意味着继续刷这些榜的 ROI 在快速降低——不再能从分数差异里看出真实能力差异。例外是 SWE-Bench Pro:开源 GLM-5.1 在 H1 末刚刚反超闭源,这个赛道还有空间。
3.2 为什么会发生
- 测试集泄露:开源数据里大量 SWE-bench / OSWorld 任务的 walkthrough,模型训练时见过
- Scaffolding 高度重叠:top 几家的 Agent 框架结构上趋同(Plan-Edit-Test 循环 + Reflection + Tool Use),模型层差距已被工程化掩盖
- Benchmark 本身的难度上限:Verified 子集只有 500 个,过 80% 之后剩下的 100 道题都是”边界 case”,提升 1% 意义不大
- 评估方法本身:模型间的差距开始小于评估方法本身的 noise
3.3 接下来该看什么
| 方向 | 推荐跟踪的 benchmark | 为什么 |
|---|---|---|
| 代码工程 | SWE-Bench Pro(开源已反超)、SWE-Lancer、SWE-bench Multimodal、SWE-bench Live | 价格 + 多模态 + 实时仓库 |
| 真实经济价值 | GDPval | OpenAI 在 H1 推出,第一个把”AI 能替代多少专业产出”标准化的 benchmark |
| GUI 操作 | OSWorld Pro、WebArena-X | 更长任务 / 更真实场景 |
| 多 Agent 协作 | MultiAgentBench、AgentVerse | A2A 协议时代的关键,参见 080 |
| 真实工作流 | τ-bench、CRMArena | 客服 / CRM / 销售场景 |
| 长程记忆 | LongMemEval、AgentBench-Memory | 跨 session 一致性 |
| 安全 / 越狱 | AgentDojo、InjecAgent | Prompt injection / tool misuse |
4. 怎么用这些 benchmark 帮你做选型
4.1 选模型
| 你的场景 | 优先看哪些 benchmark |
|---|---|
| 通用编码 | SWE-bench Verified(看 80%+ 的几家就够)+ HumanEval+ |
| 代码 + 多模态 | SWE-bench Multimodal、Aider polyglot |
| 桌面 GUI 自动化 | OSWorld Verified、WindowsAgentArena |
| 网页操作 | WebArena、VisualWebArena |
| 客服 / CRM | τ-bench、CRMArena |
| 通用 Agent | GAIA、AgentBench |
| 数学 / reasoning | AIME、GPQA、MATH |
| 长程一致性 | LongMemEval、SCROLLS |
4.2 选 scaffolding(Cursor / Devin / Claude Code / OpenHands)
- 公开榜单只是参考——top 5 的 scaffolding 之间分差很小
- 要在自己的真实仓库 / 真实任务上跑一组私有评估——这才是决定因素
- 关注非分数维度:用户体验、定价、合规、私有部署能力
4.3 内部建评估时的实用建议
参考 071 Eval Harness 实战 的方法论,加上 H1 现状几条补充:
- 不要重复造 benchmark——用 SWE-bench / GAIA / τ-bench 现成的 + 你自己的私有 case mix
- 私有 case 至少 30–50 条 才有统计意义
- 每个 case 要明确”什么算成功”——主观评价占比超过 30% 的评估,半年内会和团队成员的口味漂移
- 每月跑一次回归——模型 / scaffolding 都在变,benchmark 结果有时效
- 保留 failure 样本——失败 case 比成功 case 有价值,可以加入下一轮训练数据 / 提示词改进
5. 几个常被忽略的细节
5.1 Pass@1 vs Pass@k
很多榜单显示的是 Pass@1(一次成功率),但有些产品宣传时偷偷用 Pass@k(k 次尝试中有一次成功)。这两个数字差距可能很大——同一个 Agent,Pass@1 80%、Pass@5 95% 是可能的。比较时一定要对齐 k。
5.2 完整 token 预算 vs 限制 token 预算
部分榜单允许 Agent 跑很久(无限轮次),部分限制 token / 步数。这两种模式下的”成功率”不可直接比。
5.3 是否允许人在回路
某些榜单允许人在回路(比如 SWE-bench 的 lite 版本可以让人辅助选 patch),某些是全自动。comparing scores requires comparing settings.
5.4 子集的隐含偏差
SWE-bench 主要是 Python;OSWorld 主要是 Linux + Ubuntu 应用;WebArena 是少数预设网站。如果你团队是 Java / Windows / 私有内网,这些数字对你的相关性会显著低于表面。
5.5 时间漂移
Web 类 benchmark(WebArena)依赖外部网站,网站本身改了 → 历史分数失效。SWE-bench Live(追新 issue)也面临类似问题。看到老分数时要看截止日期。
6. 一个实用的”benchmark 体检清单”
如果你要给一个 Agent 做客观能力评估,建议至少跑这几项:
| 项 | 用什么 | 测什么 |
|---|---|---|
| 代码能力 | SWE-bench Verified(200+ instance) | 真实代码修复 |
| 长上下文 | LongBench v2 | 200K+ context 处理 |
| Tool calling | τ-bench retail subset | 多轮 + 状态 |
| 通用 Agent | GAIA Level 2 | 多步推理 + tool |
| Reasoning | AIME 2024(取最新一届) | 数学推理 |
| 安全 | AgentDojo subset | 注入鲁棒性 |
| 私有 case | 30+ 你自己的 case | 真实业务 |
预算允许的话,再加 OSWorld Verified(GUI)、SWE-Lancer(价格维度)。
7. 与其他主题的关系
- 与 041 评估体系 的关系:本文是 041 方法论在 H1 的”现状切片”
- 与 071 Eval Harness 实战 的关系:071 讲怎么自建评估,本文讲业界标准评估
- 与 070b Coding Agents v2 的关系:那篇产品矩阵已经引用了本文的 SWE-bench 数据
- 与 073 Computer Use Agents 的关系:OSWorld 数据在两篇都引用,本文更细
- 与 040b 模型选型 v2 的关系:本文给选型决策提供 benchmark 参考
小结
2026 H1 是 Agent benchmark 第一次”全员逼近天花板”的半年。这是技术成熟的信号,也是新一代 benchmark 接力的窗口期。
记住这几点:
- 老 benchmark(SWE-bench Verified、OSWorld Verified、WebArena)刷榜 ROI 已见底
- 新 benchmark(SWE-Lancer、τ-bench、SWE-bench Multimodal、GAIA)仍有空间
- 公开榜单只是入门筛选——真正的选型决策必须靠自己仓库 + 真实任务的私有评估
- 最值得长期跟踪的不是”谁第一”,而是”哪些 benchmark 还能区分模型 / scaffolding 差距”——这是 H2 该看的东西
如果一年前 Agent benchmark 是”模型能力的客观标尺”,2026 H1 它已经是”基础门槛指标 + 你需要自建私有评估”——这个心态切换很重要。
延伸阅读
- 041 AI 评估体系 — 评估方法论
- 071 Eval Harness 实战 — 自建评估
- 070b Coding Agents v2 — Coding Agent 产品矩阵
- 073 Computer Use Agents — GUI Agent 与 OSWorld
- SWE-bench | OSWorld | GAIA | τ-bench