Agent Benchmark 2026 H1 综合横评：SWE-bench / OSWorld / WebArena / SWE-Lancer

Agent Benchmark 2026 H1 综合横评

flowchart LR
  A["Agent Benchmark 2026 H1"]
  A --> B["分类：工程与生产"]
  A --> C["关键词：SWE-bench"]
  A --> D["关键词：OSWorld"]
  A --> E["关键词：WebArena"]
  A --> F["关键词：评估天花板"]

一年前选 Coding Agent，第一句话经常是”它在 SWE-bench 上多少分”。到 2026-04，Claude Opus 4.7 已经在 SWE-Bench Verified 拿到 87.6%、GPT-5.3-Codex 拿到 85.0%，top 几家差距小于 5%。同时 OpenAI 推出 GDPval（44 个真实职业的”专业产出”评测）让评估从 “做对题” 转向 “能否替代真人工作”。Agent benchmark 进入了一个新阶段：老 benchmark 集体逼近天花板，新 benchmark 在重新定义”Agent 能不能做事”。

修订说明（2026-04-18）：本文一稿对 SWE-Bench Verified top 写成 ~80%（实际 87.6%）、对 OSWorld Verified 站序写错（首位是 Claude Mythos Preview 79.6 而非 GPT-5.4）。已据 swe-bench.com / benchlm.ai 修正，并补入 GDPval、SWE-Bench Pro 两个 H1 关键新 benchmark。

这篇文章会讲什么

041 AI 评估体系和 071 Eval Harness 实战已经讲过 evaluation 通用方法论。本文是它们的”行业现状切片”——只回答这几个具体问题：

2026 H1 主流 Agent benchmark 当前 SOTA 是什么？谁在 top？
每个 benchmark 实际测什么？最常见的误读是什么？
“刷榜 ROI 见底”是什么意思？接下来该看哪些 benchmark？
如何用这些 benchmark 帮你做选型 / 选模型？

先说结论

Coding (SWE-Bench Verified)：top 1 Claude Opus 4.7 = 87.6%（2026-04-16 发布，1M 上下文）；GPT-5.3-Codex = 85.0%；差距小于评估噪声；该 benchmark 已基本见顶
Coding (SWE-Bench Pro)：GLM-5.1 (744B 开源, MIT) = 58.4% 反超 GPT-5.4 (57.7) / Claude Opus 4.6 (57.3) —— 是 H1 开源第一次在主流 coding benchmark 上反超闭源
GUI 操作 (OSWorld Verified)：top 1 Claude Mythos Preview = 79.6%（仅 50 家 enterprise 可访问），第二 Holo3-122B-A10B = 78.8%，第三 Claude Opus 4.7 = 78.0%，GPT-5.4 = 75.0%（仍超过人类基线 72.4%）
真实工作 (GDPval)：OpenAI 在 H1 推出，覆盖 9 大 GDP 行业 / 44 个职业 / 1320 任务；GPT-5.4 拿 ~83%，意味着”在 44 个职业的产出已和专业人士相当”
网页操作 (WebArena)：~71%（GPT-5.4 + scaffolding）；VisualWebArena ~65%+
真实自由职业 (SWE-Lancer)：Claude Opus 4.7 完成约 $120K/$240K 任务总价；首次把”价格”作为评估维度
通用 reasoning：MMLU-Pro / AIME 2025 (DeepSeek-R1: 91.1) / GPQA (Gemini 3.1 Pro: 94.3) 仍有信息量，但和”Agent 能力”的相关性弱于上面三个

1. 主流 Agent Benchmark 现状表 (2026 H1，截至 2026-04-18)

Benchmark	测什么	当前 SOTA	top 1 是谁	一年前	是否还有信息量
SWE-bench Verified	真实 GitHub issue 修复（500 个 instance）	87.6%	Claude Opus 4.7 (2026-04-16, 1M 上下文)	~50%	接近见顶，差距 <5%
SWE-bench Pro	更难子集 / 多语言	58.4%	GLM-5.1 (Z.ai, 744B, MIT)	新 benchmark	仍有空间，开源已反超闭源
SWE-bench Multimodal	含截图 / UI 的 issue	~50%	Claude Sonnet 4.6	新 benchmark	仍有空间
SWE-Lancer	真实自由职业代码任务（含价格）	~$120K / $240K 任务总价	Claude Opus 4.7	新 benchmark	仍有空间
GDPval (新)	9 大行业 / 44 职业 / 1320 任务，专家盲评	~83%（已和专业人士同档）	GPT-5.4	新 benchmark (OpenAI 推出)	价值最高的新 benchmark
OSWorld (全集)	桌面 GUI 操作	~63%	GPT-5.4 + Operator	~12%	仍有空间
OSWorld Verified	OSWorld 人工验证子集	79.6%	Claude Mythos Preview（gated）	~30%	接近见顶（人类 72.4）
OSWorld Verified #2	—	78.8%	Holo3-122B-A10B	—	—
OSWorld Verified #3	—	78.0%	Claude Opus 4.7	—	—
OSWorld Verified #5	—	75.0%	GPT-5.4 (with Computer Use 模式原生)	—	—
WebArena	真实网站操作	~71%	GPT-5.4 + 自定义 scaffolding	~25%	接近见顶
VisualWebArena	含视觉元素的网页	~65%	Claude Sonnet 4.6	~15%	仍有空间
GAIA	通用 Agent 任务（多步推理 + tool）	~73%	Claude Opus 4.7	~30%	仍有空间（人类 ~92%）
AgentBench	多场景综合（OS / DB / Web / Game）	~68%	GPT-5.4	~40%	仍有空间
τ-bench	tool calling + 多轮 + 状态保持	~70% (retail)	Claude Opus 4.7	新 benchmark	仍有空间
AIME 2025	数学竞赛（非 Agent，但 reasoning 关键参考）	~95%	GPT-5.4 reasoning	~85%	接近见顶
AIME 2025 (开源)	—	91.1	DeepSeek-R1 / Mercury 2	—	—
GPQA	研究生级科学题	94.3%	Gemini 3.1 Pro (1M 上下文)	~70%	接近见顶

1.1 怎么读这张表

“是否见底” 不是说 benchmark 没用了，而是说继续刷分对选型决策没有差异化信息。SWE-bench Verified top 5 都在 78–82%，你看分差选不出方向
新 benchmark（如 SWE-Lancer / τ-bench / SWE-bench Multimodal）的价值，在于它们还能区分模型 / scaffolding 的真实差距
同一 benchmark 不同时间段成绩不可直接比——榜单规则、子集划分、模型版本都会变

2. 几个关键 Benchmark 详解：测什么、最常见的误读

2.1 SWE-bench / SWE-bench Verified

测什么：从真实 GitHub 项目（Django、Flask、scikit-learn、sympy 等）抽取 issue + 失败的测试，让 Agent 生成 patch，apply 后跑测试看是否通过。

Verified 子集：原 SWE-bench 中有些 issue 描述不清 / 测试本身有问题，由人工筛过的高质量 500 个 instance。这是工业界用最多的子集。

最常见的误读：

❌ “SWE-bench Verified 80% 意味着它能完成我们 80% 的 bug” —— 错。SWE-bench 题目都是已经被定位到具体 repo + 测试覆盖完备的 issue。真实工作里大多数 bug 没那么干净
❌ “比榜单分数高的产品就更适合我”——错。榜单第 5 和第 1 之间通常 <3%，被你仓库的工程化差异完全淹没
✓ 应该把它当作”模型 + scaffolding 在干净环境下解决软件工程问题的上限指标”，不是”真实生产力指标”

2.2 SWE-Lancer (新)

测什么：从 Upwork 真实自由职业岗位抓取 1488 个软件工程任务，带原始客户支付价格。Agent 完成的任务按是否通过验收 + 任务原价计算分数。

为什么重要：这是第一个把”价格”作为评估维度的 Agent benchmark。意味着：

可以直接算出”Agent 完成的工作如果让人做需要多少钱”
可以横向比较不同 Agent 的”美元产出”

当前：Claude Opus 4.7 完成约 $120K / $240K 总任务价值（2026 Q2 OpenAI 公开数字），约 50% 任务通过验收。

最常见的误读：

❌ “Agent 已经能赚 $120K 了”——错。这是任务总价值，不是 Agent 实际能产生的市场收入
❌ “Agent 能取代自由职业开发者”——错。能通过验收的多是定义清晰、范围小的任务

2.3 OSWorld（含 Verified 站序更新）

测什么：让 Agent 在真实操作系统（Ubuntu / macOS / Windows VM）里完成办公任务——发邮件、改 PDF、做 PPT、调系统设置等。

Verified 子集：人工 review 过、确保任务定义清楚、验收脚本可靠的子集。截至 2026-04-16 站序：

排名	模型	OSWorld Verified
1	Claude Mythos Preview (Anthropic, gated, 50 家可访问)	79.6%
2	Holo3-122B-A10B	78.8%
3	Claude Opus 4.7 (公开 API)	78.0%
5	GPT-5.4 (含原生 Computer Use 模式)	75.0%
—	人类基线（普通办公文员限时）	72.4%

最常见的误读：

❌ “Agent 已经超过人类”——错。人类基线是”普通办公文员、首次接触任务、限时完成”，不是”专家、熟悉系统”。OSWorld Verified 的人类基线是 lower bound
❌ “GPT-5.4 一家独大”——错。Claude Mythos Preview / Opus 4.7 都已超过 GPT-5.4，Holo3 等专门 GUI 模型也已上来
❌ “Computer Use Agent 可以替代办公人员”——错。Verified 之外的全集只有 ~63%，长尾任务仍弱
✓ 应该把它当作”GUI 操作研究的关键里程碑”，不是”商品化指标”

2.3b GDPval（H1 OpenAI 新推、最值得跟踪）

测什么：覆盖 9 大美国 GDP 主要行业（按 BLS 工资数据 + O*NET 任务分析筛选）、44 个偏知识 / 数字工作的职业、共 1320 任务（约每职业 30 个），外加一个 220 任务的”gold” 公开子集。任务由平均 14+ 年从业经验的专家撰写，输出形态包括法律简报、工程蓝图、护理方案、客户支持对话等”真实交付物”。

评估方法：盲测 head-to-head 专家比对（专家判 AI 输出 vs 专家产出哪个好 / 平 / 差），加一个实验性自动评分。

当前 SOTA：GPT-5.4 ~83%（“在 44 个职业的产出已和专业人士相当”）。

为什么重要：

第一个把”AI 输出能不能替代真人 deliverable”做成标准化评测
包含成本对比：Frontier 模型在这些任务上比真人快 ~100×、便宜 ~100×（不含 oversight / 集成）
用 GDP 加权 → 直接给企业一个”AI 能替代多少经济价值”的量化参考

最常见的误读：

❌ “AI 在 83% 的工作上已经超过人”——错。GDPval 是任务级 deliverable，不是岗位整体
❌ “意味着 83% 的从业者会失业”——错。该评测排除了 oversight、协作、判断、关系等大量真实工作内容
✓ 应该把它当作”AI 替代人类单点 deliverable 的能力上限”

2.4 WebArena / VisualWebArena

测什么：让 Agent 在真实网站（GitLab、Reddit、电商、地图等）完成任务——发 issue、找信息、下订单等。

当前 SOTA：~71%（GPT-5.4 + scaffolding）

最常见的误读：

❌ “Agent 能完成 71% 的网页任务”——错。WebArena 任务都是预定义、有明确成功标准的；真实任务往往无标准答案
✓ 应该把它当作”Web Agent 在结构化网站上的能力上限”

2.5 τ-bench

测什么：模拟真实客服 / 售后场景，Agent 需要多轮对话 + tool calling + 维护状态（订单、用户、库存）。

为什么重要：这是少数把”长 conversation + tool calling + state consistency”作为核心维度的 benchmark。和真实客服 / 销售场景重合度高。

当前 SOTA：~70% (retail subset, Claude Opus 4.7)

2.6 GAIA

测什么：通用 Agent 任务，要求多步推理 + tool 使用 + 网页浏览。题目是人类专家用 ~10 分钟能完成，模型常常做错的事。

当前 SOTA：~73% (Claude Opus 4.7)，人类约 92%。

为什么重要：GAIA 是少数人类基线远高于模型 SOTA 的 benchmark，仍然有非常大的 headroom。值得长期跟踪。

3. 刷榜 ROI 见底是什么意思

3.1 现象

到 2026 H1，Coding 方向 / GUI 方向的 benchmark 出现了一个共同模式：

SWE-Bench Verified top 5 都在 80%+，差距 <5%
OSWorld Verified top 4 都在 75%+，差距 <5%
月度刷榜的提升 <1%
新模型发布后涨幅在 1–2% 之间
某些子集已经被刷到接近 evaluation 噪声本身（人工 review 时发现”对错”已经很主观）

这意味着继续刷这些榜的 ROI 在快速降低——不再能从分数差异里看出真实能力差异。例外是 SWE-Bench Pro：开源 GLM-5.1 在 H1 末刚刚反超闭源，这个赛道还有空间。

3.2 为什么会发生

测试集泄露：开源数据里大量 SWE-bench / OSWorld 任务的 walkthrough，模型训练时见过
Scaffolding 高度重叠：top 几家的 Agent 框架结构上趋同（Plan-Edit-Test 循环 + Reflection + Tool Use），模型层差距已被工程化掩盖
Benchmark 本身的难度上限：Verified 子集只有 500 个，过 80% 之后剩下的 100 道题都是”边界 case”，提升 1% 意义不大
评估方法本身：模型间的差距开始小于评估方法本身的 noise

3.3 接下来该看什么

方向	推荐跟踪的 benchmark	为什么
代码工程	SWE-Bench Pro（开源已反超）、SWE-Lancer、SWE-bench Multimodal、SWE-bench Live	价格 + 多模态 + 实时仓库
真实经济价值	GDPval	OpenAI 在 H1 推出，第一个把”AI 能替代多少专业产出”标准化的 benchmark
GUI 操作	OSWorld Pro、WebArena-X	更长任务 / 更真实场景
多 Agent 协作	MultiAgentBench、AgentVerse	A2A 协议时代的关键，参见 080
真实工作流	τ-bench、CRMArena	客服 / CRM / 销售场景
长程记忆	LongMemEval、AgentBench-Memory	跨 session 一致性
安全 / 越狱	AgentDojo、InjecAgent	Prompt injection / tool misuse

4. 怎么用这些 benchmark 帮你做选型

4.1 选模型

你的场景	优先看哪些 benchmark
通用编码	SWE-bench Verified（看 80%+ 的几家就够）+ HumanEval+
代码 + 多模态	SWE-bench Multimodal、Aider polyglot
桌面 GUI 自动化	OSWorld Verified、WindowsAgentArena
网页操作	WebArena、VisualWebArena
客服 / CRM	τ-bench、CRMArena
通用 Agent	GAIA、AgentBench
数学 / reasoning	AIME、GPQA、MATH
长程一致性	LongMemEval、SCROLLS

4.2 选 scaffolding（Cursor / Devin / Claude Code / OpenHands）

公开榜单只是参考——top 5 的 scaffolding 之间分差很小
要在自己的真实仓库 / 真实任务上跑一组私有评估——这才是决定因素
关注非分数维度：用户体验、定价、合规、私有部署能力

4.3 内部建评估时的实用建议

参考 071 Eval Harness 实战的方法论，加上 H1 现状几条补充：

不要重复造 benchmark——用 SWE-bench / GAIA / τ-bench 现成的 + 你自己的私有 case mix
私有 case 至少 30–50 条 才有统计意义
每个 case 要明确”什么算成功”——主观评价占比超过 30% 的评估，半年内会和团队成员的口味漂移
每月跑一次回归——模型 / scaffolding 都在变，benchmark 结果有时效
保留 failure 样本——失败 case 比成功 case 有价值，可以加入下一轮训练数据 / 提示词改进

5. 几个常被忽略的细节

5.1 Pass@1 vs Pass@k

很多榜单显示的是 Pass@1（一次成功率），但有些产品宣传时偷偷用 Pass@k（k 次尝试中有一次成功）。这两个数字差距可能很大——同一个 Agent，Pass@1 80%、Pass@5 95% 是可能的。比较时一定要对齐 k。

5.2 完整 token 预算 vs 限制 token 预算

部分榜单允许 Agent 跑很久（无限轮次），部分限制 token / 步数。这两种模式下的”成功率”不可直接比。

5.3 是否允许人在回路

某些榜单允许人在回路（比如 SWE-bench 的 lite 版本可以让人辅助选 patch），某些是全自动。comparing scores requires comparing settings.

5.4 子集的隐含偏差

SWE-bench 主要是 Python；OSWorld 主要是 Linux + Ubuntu 应用；WebArena 是少数预设网站。如果你团队是 Java / Windows / 私有内网，这些数字对你的相关性会显著低于表面。

5.5 时间漂移

Web 类 benchmark（WebArena）依赖外部网站，网站本身改了 → 历史分数失效。SWE-bench Live（追新 issue）也面临类似问题。看到老分数时要看截止日期。

6. 一个实用的”benchmark 体检清单”

如果你要给一个 Agent 做客观能力评估，建议至少跑这几项：

项	用什么	测什么
代码能力	SWE-bench Verified（200+ instance）	真实代码修复
长上下文	LongBench v2	200K+ context 处理
Tool calling	τ-bench retail subset	多轮 + 状态
通用 Agent	GAIA Level 2	多步推理 + tool
Reasoning	AIME 2024（取最新一届）	数学推理
安全	AgentDojo subset	注入鲁棒性
私有 case	30+ 你自己的 case	真实业务

预算允许的话，再加 OSWorld Verified（GUI）、SWE-Lancer（价格维度）。

7. 与其他主题的关系

与 041 评估体系的关系：本文是 041 方法论在 H1 的”现状切片”
与 071 Eval Harness 实战的关系：071 讲怎么自建评估，本文讲业界标准评估
与 070b Coding Agents v2 的关系：那篇产品矩阵已经引用了本文的 SWE-bench 数据
与 073 Computer Use Agents 的关系：OSWorld 数据在两篇都引用，本文更细
与 040b 模型选型 v2 的关系：本文给选型决策提供 benchmark 参考

小结

2026 H1 是 Agent benchmark 第一次”全员逼近天花板”的半年。这是技术成熟的信号，也是新一代 benchmark 接力的窗口期。

记住这几点：

老 benchmark（SWE-bench Verified、OSWorld Verified、WebArena）刷榜 ROI 已见底
新 benchmark（SWE-Lancer、τ-bench、SWE-bench Multimodal、GAIA）仍有空间
公开榜单只是入门筛选——真正的选型决策必须靠自己仓库 + 真实任务的私有评估
最值得长期跟踪的不是”谁第一”，而是”哪些 benchmark 还能区分模型 / scaffolding 差距”——这是 H2 该看的东西

如果一年前 Agent benchmark 是”模型能力的客观标尺”，2026 H1 它已经是”基础门槛指标 + 你需要自建私有评估”——这个心态切换很重要。