Agent Benchmark 2026 H1 综合横评:SWE-bench / OSWorld / WebArena / SWE-Lancer

2026 H1 是 Agent benchmark 第一次「全员逼近天花板」的半年。SWE-bench Verified 80%+ 已不再稀奇、OSWorld 突破人类基线、WebArena 超过 70%。本文横向梳理主流 Agent benchmark 当前状态、它们各自测什么 / 不测什么、刷榜 ROI 见底之后,下一阶段该看哪些新 benchmark。

12 min read Part of AI Engineering · Ch. 12

Agent Benchmark 2026 H1 综合横评

flowchart LR
  A["Agent Benchmark 2026 H1"]
  A --> B["分类:工程与生产"]
  A --> C["关键词:SWE-bench"]
  A --> D["关键词:OSWorld"]
  A --> E["关键词:WebArena"]
  A --> F["关键词:评估天花板"]

一年前选 Coding Agent,第一句话经常是”它在 SWE-bench 上多少分”。到 2026-04,Claude Opus 4.7 已经在 SWE-Bench Verified 拿到 87.6%、GPT-5.3-Codex 拿到 85.0%,top 几家差距小于 5%。同时 OpenAI 推出 GDPval(44 个真实职业的”专业产出”评测)让评估从 “做对题” 转向 “能否替代真人工作”。Agent benchmark 进入了一个新阶段:老 benchmark 集体逼近天花板,新 benchmark 在重新定义”Agent 能不能做事”。

修订说明(2026-04-18):本文一稿对 SWE-Bench Verified top 写成 ~80%(实际 87.6%)、对 OSWorld Verified 站序写错(首位是 Claude Mythos Preview 79.6 而非 GPT-5.4)。已据 swe-bench.com / benchlm.ai 修正,并补入 GDPval、SWE-Bench Pro 两个 H1 关键新 benchmark。


这篇文章会讲什么

041 AI 评估体系071 Eval Harness 实战 已经讲过 evaluation 通用方法论。本文是它们的”行业现状切片”——只回答这几个具体问题:

  1. 2026 H1 主流 Agent benchmark 当前 SOTA 是什么?谁在 top?
  2. 每个 benchmark 实际测什么?最常见的误读是什么?
  3. “刷榜 ROI 见底”是什么意思?接下来该看哪些 benchmark?
  4. 如何用这些 benchmark 帮你做选型 / 选模型?

先说结论

  • Coding (SWE-Bench Verified):top 1 Claude Opus 4.7 = 87.6%(2026-04-16 发布,1M 上下文);GPT-5.3-Codex = 85.0%;差距小于评估噪声;该 benchmark 已基本见顶
  • Coding (SWE-Bench Pro)GLM-5.1 (744B 开源, MIT) = 58.4% 反超 GPT-5.4 (57.7) / Claude Opus 4.6 (57.3) —— 是 H1 开源第一次在主流 coding benchmark 上反超闭源
  • GUI 操作 (OSWorld Verified):top 1 Claude Mythos Preview = 79.6%(仅 50 家 enterprise 可访问),第二 Holo3-122B-A10B = 78.8%,第三 Claude Opus 4.7 = 78.0%,GPT-5.4 = 75.0%(仍超过人类基线 72.4%)
  • 真实工作 (GDPval):OpenAI 在 H1 推出,覆盖 9 大 GDP 行业 / 44 个职业 / 1320 任务;GPT-5.4 拿 ~83%,意味着”在 44 个职业的产出已和专业人士相当”
  • 网页操作 (WebArena):~71%(GPT-5.4 + scaffolding);VisualWebArena ~65%+
  • 真实自由职业 (SWE-Lancer):Claude Opus 4.7 完成约 $120K/$240K 任务总价;首次把”价格”作为评估维度
  • 通用 reasoning:MMLU-Pro / AIME 2025 (DeepSeek-R1: 91.1) / GPQA (Gemini 3.1 Pro: 94.3) 仍有信息量,但和”Agent 能力”的相关性弱于上面三个

1. 主流 Agent Benchmark 现状表 (2026 H1,截至 2026-04-18)

Benchmark测什么当前 SOTAtop 1 是谁一年前是否还有信息量
SWE-bench Verified真实 GitHub issue 修复(500 个 instance)87.6%Claude Opus 4.7 (2026-04-16, 1M 上下文)~50%接近见顶,差距 <5%
SWE-bench Pro更难子集 / 多语言58.4%GLM-5.1 (Z.ai, 744B, MIT)新 benchmark仍有空间,开源已反超闭源
SWE-bench Multimodal含截图 / UI 的 issue~50%Claude Sonnet 4.6新 benchmark仍有空间
SWE-Lancer真实自由职业代码任务(含价格)~$120K / $240K 任务总价Claude Opus 4.7新 benchmark仍有空间
GDPval (新)9 大行业 / 44 职业 / 1320 任务,专家盲评~83%(已和专业人士同档)GPT-5.4新 benchmark (OpenAI 推出)价值最高的新 benchmark
OSWorld (全集)桌面 GUI 操作~63%GPT-5.4 + Operator~12%仍有空间
OSWorld VerifiedOSWorld 人工验证子集79.6%Claude Mythos Preview(gated)~30%接近见顶(人类 72.4)
OSWorld Verified #278.8%Holo3-122B-A10B
OSWorld Verified #378.0%Claude Opus 4.7
OSWorld Verified #575.0%GPT-5.4 (with Computer Use 模式原生)
WebArena真实网站操作~71%GPT-5.4 + 自定义 scaffolding~25%接近见顶
VisualWebArena含视觉元素的网页~65%Claude Sonnet 4.6~15%仍有空间
GAIA通用 Agent 任务(多步推理 + tool)~73%Claude Opus 4.7~30%仍有空间(人类 ~92%)
AgentBench多场景综合(OS / DB / Web / Game)~68%GPT-5.4~40%仍有空间
τ-benchtool calling + 多轮 + 状态保持~70% (retail)Claude Opus 4.7新 benchmark仍有空间
AIME 2025数学竞赛(非 Agent,但 reasoning 关键参考)~95%GPT-5.4 reasoning~85%接近见顶
AIME 2025 (开源)91.1DeepSeek-R1 / Mercury 2
GPQA研究生级科学题94.3%Gemini 3.1 Pro (1M 上下文)~70%接近见顶

1.1 怎么读这张表

  • “是否见底” 不是说 benchmark 没用了,而是说继续刷分对选型决策没有差异化信息。SWE-bench Verified top 5 都在 78–82%,你看分差选不出方向
  • 新 benchmark(如 SWE-Lancer / τ-bench / SWE-bench Multimodal)的价值,在于它们还能区分模型 / scaffolding 的真实差距
  • 同一 benchmark 不同时间段成绩不可直接比——榜单规则、子集划分、模型版本都会变

2. 几个关键 Benchmark 详解:测什么、最常见的误读

2.1 SWE-bench / SWE-bench Verified

测什么:从真实 GitHub 项目(Django、Flask、scikit-learn、sympy 等)抽取 issue + 失败的测试,让 Agent 生成 patch,apply 后跑测试看是否通过。

Verified 子集:原 SWE-bench 中有些 issue 描述不清 / 测试本身有问题,由人工筛过的高质量 500 个 instance。这是工业界用最多的子集

最常见的误读

  1. ❌ “SWE-bench Verified 80% 意味着它能完成我们 80% 的 bug” —— 错。SWE-bench 题目都是已经被定位到具体 repo + 测试覆盖完备的 issue。真实工作里大多数 bug 没那么干净
  2. ❌ “比榜单分数高的产品就更适合我”——错。榜单第 5 和第 1 之间通常 <3%,被你仓库的工程化差异完全淹没
  3. ✓ 应该把它当作”模型 + scaffolding 在干净环境下解决软件工程问题的上限指标”,不是”真实生产力指标”

2.2 SWE-Lancer (新)

测什么:从 Upwork 真实自由职业岗位抓取 1488 个软件工程任务,带原始客户支付价格。Agent 完成的任务按是否通过验收 + 任务原价计算分数。

为什么重要:这是第一个把”价格”作为评估维度的 Agent benchmark。意味着:

  • 可以直接算出”Agent 完成的工作如果让人做需要多少钱”
  • 可以横向比较不同 Agent 的”美元产出”

当前:Claude Opus 4.7 完成约 $120K / $240K 总任务价值(2026 Q2 OpenAI 公开数字),约 50% 任务通过验收。

最常见的误读

  1. ❌ “Agent 已经能赚 $120K 了”——错。这是任务总价值,不是 Agent 实际能产生的市场收入
  2. ❌ “Agent 能取代自由职业开发者”——错。能通过验收的多是定义清晰、范围小的任务

2.3 OSWorld(含 Verified 站序更新)

测什么:让 Agent 在真实操作系统(Ubuntu / macOS / Windows VM)里完成办公任务——发邮件、改 PDF、做 PPT、调系统设置等。

Verified 子集:人工 review 过、确保任务定义清楚、验收脚本可靠的子集。截至 2026-04-16 站序

排名模型OSWorld Verified
1Claude Mythos Preview (Anthropic, gated, 50 家可访问)79.6%
2Holo3-122B-A10B78.8%
3Claude Opus 4.7 (公开 API)78.0%
5GPT-5.4 (含原生 Computer Use 模式)75.0%
人类基线(普通办公文员限时)72.4%

最常见的误读

  1. ❌ “Agent 已经超过人类”——错。人类基线是”普通办公文员、首次接触任务、限时完成”,不是”专家、熟悉系统”。OSWorld Verified 的人类基线是 lower bound
  2. ❌ “GPT-5.4 一家独大”——错。Claude Mythos Preview / Opus 4.7 都已超过 GPT-5.4,Holo3 等专门 GUI 模型也已上来
  3. ❌ “Computer Use Agent 可以替代办公人员”——错。Verified 之外的全集只有 ~63%,长尾任务仍弱
  4. ✓ 应该把它当作”GUI 操作研究的关键里程碑”,不是”商品化指标”

2.3b GDPval(H1 OpenAI 新推、最值得跟踪)

测什么:覆盖 9 大美国 GDP 主要行业(按 BLS 工资数据 + O*NET 任务分析筛选)、44 个偏知识 / 数字工作的职业、共 1320 任务(约每职业 30 个),外加一个 220 任务的”gold” 公开子集。任务由平均 14+ 年从业经验的专家撰写,输出形态包括法律简报、工程蓝图、护理方案、客户支持对话等”真实交付物”。

评估方法:盲测 head-to-head 专家比对(专家判 AI 输出 vs 专家产出哪个好 / 平 / 差),加一个实验性自动评分。

当前 SOTA:GPT-5.4 ~83%(“在 44 个职业的产出已和专业人士相当”)。

为什么重要

  • 第一个把”AI 输出能不能替代真人 deliverable”做成标准化评测
  • 包含成本对比:Frontier 模型在这些任务上比真人快 ~100×、便宜 ~100×(不含 oversight / 集成)
  • 用 GDP 加权 → 直接给企业一个”AI 能替代多少经济价值”的量化参考

最常见的误读

  1. ❌ “AI 在 83% 的工作上已经超过人”——错。GDPval 是任务级 deliverable,不是岗位整体
  2. ❌ “意味着 83% 的从业者会失业”——错。该评测排除了 oversight、协作、判断、关系等大量真实工作内容
  3. ✓ 应该把它当作”AI 替代人类单点 deliverable 的能力上限”

2.4 WebArena / VisualWebArena

测什么:让 Agent 在真实网站(GitLab、Reddit、电商、地图等)完成任务——发 issue、找信息、下订单等。

当前 SOTA:~71%(GPT-5.4 + scaffolding)

最常见的误读

  1. ❌ “Agent 能完成 71% 的网页任务”——错。WebArena 任务都是预定义、有明确成功标准的;真实任务往往无标准答案
  2. ✓ 应该把它当作”Web Agent 在结构化网站上的能力上限”

2.5 τ-bench

测什么:模拟真实客服 / 售后场景,Agent 需要多轮对话 + tool calling + 维护状态(订单、用户、库存)。

为什么重要:这是少数把”长 conversation + tool calling + state consistency”作为核心维度的 benchmark。和真实客服 / 销售场景重合度高。

当前 SOTA:~70% (retail subset, Claude Opus 4.7)

2.6 GAIA

测什么:通用 Agent 任务,要求多步推理 + tool 使用 + 网页浏览。题目是人类专家用 ~10 分钟能完成,模型常常做错的事。

当前 SOTA:~73% (Claude Opus 4.7),人类约 92%。

为什么重要:GAIA 是少数人类基线远高于模型 SOTA 的 benchmark,仍然有非常大的 headroom。值得长期跟踪。


3. 刷榜 ROI 见底是什么意思

3.1 现象

到 2026 H1,Coding 方向 / GUI 方向的 benchmark 出现了一个共同模式:

  • SWE-Bench Verified top 5 都在 80%+,差距 <5%
  • OSWorld Verified top 4 都在 75%+,差距 <5%
  • 月度刷榜的提升 <1%
  • 新模型发布后涨幅在 1–2% 之间
  • 某些子集已经被刷到接近 evaluation 噪声本身(人工 review 时发现”对错”已经很主观)

这意味着继续刷这些榜的 ROI 在快速降低——不再能从分数差异里看出真实能力差异。例外是 SWE-Bench Pro:开源 GLM-5.1 在 H1 末刚刚反超闭源,这个赛道还有空间。

3.2 为什么会发生

  • 测试集泄露:开源数据里大量 SWE-bench / OSWorld 任务的 walkthrough,模型训练时见过
  • Scaffolding 高度重叠:top 几家的 Agent 框架结构上趋同(Plan-Edit-Test 循环 + Reflection + Tool Use),模型层差距已被工程化掩盖
  • Benchmark 本身的难度上限:Verified 子集只有 500 个,过 80% 之后剩下的 100 道题都是”边界 case”,提升 1% 意义不大
  • 评估方法本身:模型间的差距开始小于评估方法本身的 noise

3.3 接下来该看什么

方向推荐跟踪的 benchmark为什么
代码工程SWE-Bench Pro(开源已反超)、SWE-Lancer、SWE-bench Multimodal、SWE-bench Live价格 + 多模态 + 实时仓库
真实经济价值GDPvalOpenAI 在 H1 推出,第一个把”AI 能替代多少专业产出”标准化的 benchmark
GUI 操作OSWorld Pro、WebArena-X更长任务 / 更真实场景
多 Agent 协作MultiAgentBench、AgentVerseA2A 协议时代的关键,参见 080
真实工作流τ-bench、CRMArena客服 / CRM / 销售场景
长程记忆LongMemEval、AgentBench-Memory跨 session 一致性
安全 / 越狱AgentDojo、InjecAgentPrompt injection / tool misuse

4. 怎么用这些 benchmark 帮你做选型

4.1 选模型

你的场景优先看哪些 benchmark
通用编码SWE-bench Verified(看 80%+ 的几家就够)+ HumanEval+
代码 + 多模态SWE-bench Multimodal、Aider polyglot
桌面 GUI 自动化OSWorld Verified、WindowsAgentArena
网页操作WebArena、VisualWebArena
客服 / CRMτ-bench、CRMArena
通用 AgentGAIA、AgentBench
数学 / reasoningAIME、GPQA、MATH
长程一致性LongMemEval、SCROLLS

4.2 选 scaffolding(Cursor / Devin / Claude Code / OpenHands)

  • 公开榜单只是参考——top 5 的 scaffolding 之间分差很小
  • 要在自己的真实仓库 / 真实任务上跑一组私有评估——这才是决定因素
  • 关注非分数维度:用户体验、定价、合规、私有部署能力

4.3 内部建评估时的实用建议

参考 071 Eval Harness 实战 的方法论,加上 H1 现状几条补充:

  1. 不要重复造 benchmark——用 SWE-bench / GAIA / τ-bench 现成的 + 你自己的私有 case mix
  2. 私有 case 至少 30–50 条 才有统计意义
  3. 每个 case 要明确”什么算成功”——主观评价占比超过 30% 的评估,半年内会和团队成员的口味漂移
  4. 每月跑一次回归——模型 / scaffolding 都在变,benchmark 结果有时效
  5. 保留 failure 样本——失败 case 比成功 case 有价值,可以加入下一轮训练数据 / 提示词改进

5. 几个常被忽略的细节

5.1 Pass@1 vs Pass@k

很多榜单显示的是 Pass@1(一次成功率),但有些产品宣传时偷偷用 Pass@k(k 次尝试中有一次成功)。这两个数字差距可能很大——同一个 Agent,Pass@1 80%、Pass@5 95% 是可能的。比较时一定要对齐 k

5.2 完整 token 预算 vs 限制 token 预算

部分榜单允许 Agent 跑很久(无限轮次),部分限制 token / 步数。这两种模式下的”成功率”不可直接比。

5.3 是否允许人在回路

某些榜单允许人在回路(比如 SWE-bench 的 lite 版本可以让人辅助选 patch),某些是全自动。comparing scores requires comparing settings.

5.4 子集的隐含偏差

SWE-bench 主要是 Python;OSWorld 主要是 Linux + Ubuntu 应用;WebArena 是少数预设网站。如果你团队是 Java / Windows / 私有内网,这些数字对你的相关性会显著低于表面。

5.5 时间漂移

Web 类 benchmark(WebArena)依赖外部网站,网站本身改了 → 历史分数失效。SWE-bench Live(追新 issue)也面临类似问题。看到老分数时要看截止日期。


6. 一个实用的”benchmark 体检清单”

如果你要给一个 Agent 做客观能力评估,建议至少跑这几项:

用什么测什么
代码能力SWE-bench Verified(200+ instance)真实代码修复
长上下文LongBench v2200K+ context 处理
Tool callingτ-bench retail subset多轮 + 状态
通用 AgentGAIA Level 2多步推理 + tool
ReasoningAIME 2024(取最新一届)数学推理
安全AgentDojo subset注入鲁棒性
私有 case30+ 你自己的 case真实业务

预算允许的话,再加 OSWorld Verified(GUI)、SWE-Lancer(价格维度)。


7. 与其他主题的关系


小结

2026 H1 是 Agent benchmark 第一次”全员逼近天花板”的半年。这是技术成熟的信号,也是新一代 benchmark 接力的窗口期。

记住这几点:

  • 老 benchmark(SWE-bench Verified、OSWorld Verified、WebArena)刷榜 ROI 已见底
  • 新 benchmark(SWE-Lancer、τ-bench、SWE-bench Multimodal、GAIA)仍有空间
  • 公开榜单只是入门筛选——真正的选型决策必须靠自己仓库 + 真实任务的私有评估
  • 最值得长期跟踪的不是”谁第一”,而是”哪些 benchmark 还能区分模型 / scaffolding 差距”——这是 H2 该看的东西

如果一年前 Agent benchmark 是”模型能力的客观标尺”,2026 H1 它已经是”基础门槛指标 + 你需要自建私有评估”——这个心态切换很重要。


延伸阅读