AI Control:把自主 Agent 当作内部威胁来设计
结合 2026 年 6 月 Google DeepMind AI Control Roadmap 的公开报道、International AI Safety Report、AI Agent Index 与 agent containment 研究,整理为什么高自治 Agent 不能只靠 alignment,还要按内部威胁模型设计监控、隔离、审计和降级。
Category
记录模型选择、推理成本、可观测性、评测、安全、权限和 AI 工程平台化这些真正上线后会遇到的问题。
结合 2026 年 6 月 Google DeepMind AI Control Roadmap 的公开报道、International AI Safety Report、AI Agent Index 与 agent containment 研究,整理为什么高自治 Agent 不能只靠 alignment,还要按内部威胁模型设计监控、隔离、审计和降级。
结合 2026 年 6 月 OpenAI 网络安全项目报道、Five Eyes 对 frontier AI cyber 风险的警告,以及 AgentCyberRange 等新评测,梳理 AI 进入漏洞发现、补丁生成、开源维护和安全运营后,企业安全流程该怎样改。
基于 AI Engineer Knowledge Map 2026 这张能力地图,重新整理现代 AI Engineer 的知识结构:基础设施、数据、LLM、推理、RAG、Agent、安全、评测、FinOps 与业务理解。
从 Responses API、Agents SDK、MCP、Computer Use、WebSocket agent loop 和 Claude Agent SDK 出发,梳理 Agent Runtime 为什么会成为 AI 产品的核心底座,以及团队该怎样设计状态、工具、权限、沙箱、评测和可观测性。
结合 2026 年 prompt injection、防工具滥用、MCP 与 Computer Use 的新风险,梳理 Agent 产品应该怎样设计权限、确认、沙箱、审计、数据流隔离和安全评测。
从 GDPval、SWE-bench Verified、BrowseComp 和私有评测出发,说明 2026 年 AI Agent 评估为什么要从公开榜单转向真实交付物、业务闭环和可复现评测。
结合 GPT-5.5、Claude、Gemini、开源模型、OpenRouter 与私有评测,梳理 2026 年为什么 AI 产品需要模型路由,以及怎样按任务风险、成本、延迟和能力做自动切换。
基于 Claude Code 团队关于 prompt caching 的工程经验,拆解长任务 Agent 为什么必须围绕缓存来设计:静态前缀、工具集合、模型切换、compaction 和缓存命中率监控。
基于 Claude Code 团队的工具设计经验,讨论 Agent harness 里最难的一件事:不是工具越多越好,而是给模型一个它真的会理解、会使用、会自我校正的行动空间。
基于 Claude Code 团队关于 Skills 的实践经验,梳理什么样的 skill 值得做、如何写出高信号密度的 skill、如何用文件系统和脚本做渐进披露,以及团队如何分发和衡量 skill。
Google A2A 在 2025-04-09 发布,2025-06-23 进入 Linux Foundation 治理,2026-03 发布 v1.0,2026-04 一周年时支持组织数已破 150。MCP 解决 Agent ↔ Tool,A2A 解决 Agent ↔ Agent,两者正在成为 Agent 基础设施的一对协议。
讨论 2026 Q2 软件开发的两条文化线:自然语言驱动的 vibe coding 与大公司推崇的 spec-driven development,以及团队该如何在速度和可维护性之间取舍。
横评 2026 H1 主流 Agent benchmark,包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval,分析它们各自测什么、不测什么,以及刷榜见顶后的评估方向。
梳理 MCP 在 2026 Q2 的生态现状:主流主机支持、OAuth 2.1 PKCE、权限模型、第三方 server 可信度,以及企业部署 MCP 网关的关键问题。
用漏斗式视角理解 Eval Harness:工具选型、lm-eval 与 promptfoo 实战、自建四支柱、Flaky Eval 处理,以及与 Agent Harness 的关系。
AI 系统与传统软件的本质差异、分层架构设计、微服务 vs 单体、核心组件选型,以及从 MVP 到企业级的部署演进
推理延迟与成本是 AI 应用的两大痛点。Batching、KV Cache、量化、Speculative Decoding 等优化技术详解,以及 vLLM、TGI、TensorRT-LLM 等推理框架的工程取舍
Token 成本拆解、Prompt 优化、缓存策略、模型路由、Cascade 模式、自托管 vs API 成本分析,以及预算监控与告警
2026 年模型 landscape、评估维度、能力矩阵、场景映射、开源 vs 闭源、多模型策略,以及如何规避 vendor lock-in
为什么评估是 AI 工程最被低估的环节。Benchmark、离线评估、在线评估、LLM-as-judge、评估流水线与持续监控
AI 可观测性与传统 APM 的差异。Trace、指标、评估三支柱,关键指标定义,日志最佳实践,以及 LangSmith、Langfuse 等工具
AI 专属安全威胁:Prompt Injection、数据泄露、内容安全。防御策略、Guardrails、访问控制与 Red Teaming
Prompt 即代码:版本控制、测试、A/B、Registry、模板化。Prompt 生命周期与团队协作,以及 Humanloop、LangSmith Hub 等工具