Agent Runtime:为什么下一代 AI 产品像一个小操作系统

从 Responses API、Agents SDK、MCP、Computer Use、WebSocket agent loop 和 Claude Agent SDK 出发,梳理 Agent Runtime 为什么会成为 AI 产品的核心底座,以及团队该怎样设计状态、工具、权限、沙箱、评测和可观测性。

8 min read 发布:2026/06/03 Part of AI Engineering · Ch. 15
← 上一层级:学习路径 · Part 05 · AI 工程化与生产

Agent Runtime:为什么下一代 AI 产品像一个小操作系统

flowchart LR
  A["用户目标"] --> B["Planner"]
  B --> C["工具注册表"]
  B --> D["状态与记忆"]
  C --> E["MCP / API / Computer Use"]
  D --> F["评测与可观测性"]
  E --> G["权限与沙箱"]
  F --> B
  G --> B

如果 2024 年的 AI 应用是“模型外面包一层聊天框”,2026 年的 Agent 产品更像“模型外面包一层 runtime”。模型负责想,runtime 负责让它能安全、可恢复、可审计地做事。这个差别不性感,但很要命。


出处与延伸阅读


这篇文章会讲什么

这篇不是在发明一个新名词。Agent Runtime 其实已经散落在今天所有成熟 Agent 产品里:

  • OpenAI 的 Responses API / Agents SDK / tracing
  • Claude Code 背后的 Agent SDK、工具权限、prompt caching
  • Cursor、Codex、OpenHands 里的读文件、改代码、跑测试循环
  • MCP 把工具接入标准化
  • Computer Use 把“没有 API 的软件”也纳入可操作范围

把这些东西合起来看,你会发现真正的竞争点开始从“哪个模型更聪明”转向“谁的 runtime 更稳”。


先说结论

  • Agent Runtime 不是框架换皮。它是任务状态、工具调用、权限、沙箱、评测、可观测性、成本控制和恢复机制的组合
  • Agent OS 这个说法可以用,但别太玄。它不是通用操作系统,而是给 AI 代理运行任务的“应用层操作系统”
  • 模型能力越强,runtime 越重要。因为 Agent 一旦能做长任务,错误、权限和成本都会被放大
  • 2026 年可用的最小架构:Responses / Claude / Gemini 等模型接口 + MCP 工具层 + 沙箱 + 私有 eval + tracing + 人类确认门
  • 不要把 runtime 全交给模型。模型可以规划,但执行边界必须由代码、策略和审计来兜住

1. Agent Runtime 到底是什么

我的定义很朴素:

Agent Runtime 是让模型从“回答问题”变成“执行任务”的那层工程系统。

它至少包含七块东西。

模块它解决什么
任务状态当前目标、已做步骤、失败原因、下一步计划
工具注册表哪些工具可用、参数是什么、何时能调用
上下文管理哪些历史要保留、哪些要压缩、哪些要丢掉
权限系统哪些动作自动执行,哪些必须确认
沙箱代码、浏览器、文件系统、GUI 操作的隔离环境
评测系统任务有没有真的完成,而不是模型说完成了
可观测性每一步为什么发生、花了多少钱、哪里失败

很多团队一开始只做前两块:给模型塞工具,让它输出 JSON。能 demo,但很快会撞墙。因为真实任务从来不是“一次工具调用就结束”,而是读、试、错、改、再试。


2. 为什么 2026 年突然变重要

原因不是某一家发了一个新 SDK,而是几个变化叠在了一起。

2.1 模型已经能撑起长一点的任务

按 2026-06-03 前后的公开口径,GPT-5.5、Claude 4.x、Gemini 3.x 这类 frontier 模型都在把“多步任务”推到可用区间。模型不再只是补一句话,而是能读上下文、拆任务、调用工具、回看结果。

但长任务带来的不是“自动成功”,而是“错误链条变长”。一个 30 步任务里,第 7 步错了,第 20 步才暴露,最后模型还可能自信地写总结。runtime 的价值就在这里:把错误尽量关在小范围里。

2.2 工具接入开始标准化

075 MCP 生态 已经讲过,MCP 把 Agent 接工具这件事推向事实标准。工具不再只服务某一个模型厂商,而是可以被多个 host 复用。

标准化之后,问题也变了:

  • 以前问“怎么接 Slack”
  • 现在问“这个 Slack 工具给 Agent 多大权限”
  • 以前问“怎么写 function schema”
  • 现在问“工具返回的内容是否可信、是否会注入”

协议解决接入,runtime 解决治理。

2.3 Computer Use 扩大了风险面

073 Computer Use Agents 的核心变化是:Agent 不只调 API,还能看屏幕、点鼠标、敲键盘。

这很强,也很危险。API 至少有清晰权限边界;GUI 操作更像把一台电脑交给模型。于是 runtime 必须处理:

  • 运行在真实机器还是隔离 VM
  • 是否允许访问剪贴板、下载目录、浏览器 cookies
  • 哪些点击需要人确认
  • 做错后怎么回滚

没有 runtime 的 Computer Use,只是一个能点按钮的风险放大器。

2.4 延迟和成本已经进入系统问题

OpenAI 在 2026-04 写过 WebSocket agent loop 的优化:Agent 执行一次任务会来回调用很多轮模型和工具,重复处理历史会拖慢整个 loop。于是他们把上一轮 response 状态、工具定义、采样中间物缓存到连接里,减少重复工作。

这说明一件事:Agent 的性能瓶颈已经不只是“模型每秒多少 token”,而是整个 runtime 怎么传状态、复用上下文、并行工具、跳过无意义验证。


3. Agent Runtime 的一个可用架构

不用一上来做宏大的“Agent OS”。一个能上线的 runtime,大致可以长这样:

User Goal

Task Planner

Policy Gate

Tool Router

Sandbox / MCP / API / Browser / Computer Use

Verifier

Trace + Eval + Memory

Next Step or Final Answer

3.1 Planner:别让它一次规划到底

长任务里,一次性规划 20 步通常很漂亮,也很没用。现实里更稳的是短计划:

  1. 看当前状态
  2. 选一个最小下一步
  3. 执行
  4. 验证
  5. 再决定下一步

这也是很多 coding agent 的基本循环:plan → edit → test → inspect → continue。它不优雅,但抗摔。

3.2 Policy Gate:权限不该藏在 prompt 里

“不要删除文件”“付款前请确认”“不要外发客户数据”这些规则,写进 system prompt 是必要的,但不够。

真正的 gate 应该在代码层:

  • read 可以自动
  • write 需要限定目录
  • delete 需要确认
  • send_email 需要预览
  • payment 必须人工批准
  • external_http 需要 allowlist

模型可以建议动作,runtime 决定能不能做。

3.3 Tool Router:先 API,后 MCP,最后 GUI

工具优先级建议非常保守:

优先级路线原因
1直接 API / 内部服务最快、最可控、最好审计
2MCP server可复用,适合跨 host
3Browser automation适合网页任务,但要防注入
4Computer Use兜底层,成本高、风险高

能写 API 的地方不要让模型点屏幕。能用 MCP 的地方不要重造插件。

3.4 Verifier:用结果验证,不用语气验证

Agent 最大的坏习惯之一是“语气像完成了”。runtime 必须把完成定义变成外部信号:

  • 代码任务:测试通过、diff 合理
  • 数据任务:行数、字段、校验和正确
  • 文档任务:格式、链接、引用完整
  • 网页任务:目标状态真的变化
  • 客服任务:订单、库存、退款状态一致

没有 verifier 的 Agent,就是把“相信模型”包装成了自动化。


4. 和已有文章的关系

这篇可以看作几篇旧文的拼图:

如果说 070 AI Coding Agent 全景 讲的是“有哪些产品”,本文讲的是“这些产品背后共同长出来的工程骨架”。


5. 团队现在应该记录什么

如果你在做 AI 产品,建议从今天开始记录这几类数据:

记录项为什么重要
每个任务用了哪些工具复盘成本和风险
每一步的输入输出找到失败点
人类确认发生在哪里优化权限边界
自动完成率判断 Agent 是否值得继续做
失败类型决定是调 prompt、换模型还是补工具
私有 eval 分数防止被公开 benchmark 带偏
单任务成本决定商业模式能不能成立

这些记录比“今天换了哪个模型”更有长期价值。


6. 常见误区

6.1 “Agent Runtime 就是 LangGraph / SDK”

不是。LangGraph、OpenAI Agents SDK、Claude Agent SDK 都可以是 runtime 的一部分,但真正的 runtime 还包括权限、审计、评测、沙箱和产品流程。

框架让你跑起来,runtime 让你上线后不崩。

6.2 “模型越强,工程越简单”

短任务可能是这样;长任务通常相反。模型越强,你越敢给它更大的动作空间,于是更需要边界。

弱模型会把事情做错;强模型可能把错误做得很完整。

6.3 “所有 Agent 都应该有长期记忆”

不一定。对生产系统来说,长期记忆是权限和隐私问题,不是默认福利。很多任务只需要“本次任务状态”,不需要跨 session 记忆。

先把短期状态做好,再谈长期记忆。


小结

Agent Runtime 是 2026 年 AI 工程里最值得认真记录的一条线。

它不抢模型发布会的风头,但它决定 AI 产品能不能从 demo 走到生产:

  • 能不能稳定执行多步任务
  • 能不能在失败后恢复
  • 能不能解释每一步为什么发生
  • 能不能限制危险动作
  • 能不能用评测证明真的有用
  • 能不能把成本压到商业上可接受

我会把“Agent OS”理解成一个方向,而不是一个口号:当模型开始像员工一样接任务,应用就需要像操作系统一样管理它的权限、状态、资源和日志。

这件事不会一夜之间完成,但它已经开始了。