AI Control:把自主 Agent 当作内部威胁来设计
结合 2026 年 6 月 Google DeepMind AI Control Roadmap 的公开报道、International AI Safety Report、AI Agent Index 与 agent containment 研究,整理为什么高自治 Agent 不能只靠 alignment,还要按内部威胁模型设计监控、隔离、审计和降级。
Tag
#2026Q2 标签文章合集,收录 Diors.tech 中与 2026Q2 相关的 AI 学习笔记、技术拆解和工程实践。
18 篇文章结合 2026 年 6 月 Google DeepMind AI Control Roadmap 的公开报道、International AI Safety Report、AI Agent Index 与 agent containment 研究,整理为什么高自治 Agent 不能只靠 alignment,还要按内部威胁模型设计监控、隔离、审计和降级。
结合 2026 年 6 月 OpenAI 网络安全项目报道、Five Eyes 对 frontier AI cyber 风险的警告,以及 AgentCyberRange 等新评测,梳理 AI 进入漏洞发现、补丁生成、开源维护和安全运营后,企业安全流程该怎样改。
基于 AI Engineer Knowledge Map 2026 这张能力地图,重新整理现代 AI Engineer 的知识结构:基础设施、数据、LLM、推理、RAG、Agent、安全、评测、FinOps 与业务理解。
从 Responses API、Agents SDK、MCP、Computer Use、WebSocket agent loop 和 Claude Agent SDK 出发,梳理 Agent Runtime 为什么会成为 AI 产品的核心底座,以及团队该怎样设计状态、工具、权限、沙箱、评测和可观测性。
结合 2026 年 prompt injection、防工具滥用、MCP 与 Computer Use 的新风险,梳理 Agent 产品应该怎样设计权限、确认、沙箱、审计、数据流隔离和安全评测。
从 GDPval、SWE-bench Verified、BrowseComp 和私有评测出发,说明 2026 年 AI Agent 评估为什么要从公开榜单转向真实交付物、业务闭环和可复现评测。
结合 GPT-5.5、Claude、Gemini、开源模型、OpenRouter 与私有评测,梳理 2026 年为什么 AI 产品需要模型路由,以及怎样按任务风险、成本、延迟和能力做自动切换。
结合 Gemini Robotics 1.5、V-JEPA 2、world model、Computer Use 和机器人基础模型,梳理 2026 年 Embodied AI 为什么值得记录,以及它离真正通用家用机器人还有多远。
Perplexity Comet 已扩展到桌面和移动端,OpenAI ChatGPT Atlas、The Browser Company Dia 等产品也在重做浏览器入口。和「Chrome + 插件 + ChatGPT 标签页」不是一回事——AI-native browser 把 LLM 当一等公民,URL 退到次位。本文是这条新赛道的产品与功能切片。
梳理 2026 H1 AI for Science 三条主线:AlphaFold 3 与药物发现、材料生成模型、科学 Agent,讨论它们进入科研工作流后的机会和边界。
拆解 World Models 在 2026 H1 的进展,重点看 Genie 3、Project Genie 与可交互世界生成,解释它和视频生成、Robotics、Agent、游戏之间的关系。
2026 H1 是开放权重 / 开源 LLM 第一次在多个赛道逼近 frontier 闭源模型的半年。Llama 4、DeepSeek、Qwen、GLM、Gemma 等模型在 reasoning、coding、Agent、小型本地等维度形成分轨竞争。本文按六条赛道梳理现状,给出选型决策树与本地部署成本参考。
Google A2A 在 2025-04-09 发布,2025-06-23 进入 Linux Foundation 治理,2026-03 发布 v1.0,2026-04 一周年时支持组织数已破 150。MCP 解决 Agent ↔ Tool,A2A 解决 Agent ↔ Agent,两者正在成为 Agent 基础设施的一对协议。
讨论 2026 Q2 软件开发的两条文化线:自然语言驱动的 vibe coding 与大公司推崇的 spec-driven development,以及团队该如何在速度和可维护性之间取舍。
横评 2026 H1 主流 Agent benchmark,包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval,分析它们各自测什么、不测什么,以及刷榜见顶后的评估方向。
视频生成到 2026 H1 已经跨过“只能看 demo”的阶段,但平台可用性变化很快:OpenAI Sora Web/App 已于 2026-04-26 停用,Sora 2 仍应按模型/API 能力而非消费级工作流来评估。本文梳理 Sora 2、Veo 3.1、Runway、Luma 的能力边界、适用场景、评估方法和现实限制。
实时语音 Agent 这条线已经从 ASR + LLM + TTS 的拼装方案,走向更完整的语音到语音系统。本文梳理其架构变化、工程难点、适用场景,以及它和 Computer Use / Hermes Agent 的关系。
梳理 MCP 在 2026 Q2 的生态现状:主流主机支持、OAuth 2.1 PKCE、权限模型、第三方 server 可信度,以及企业部署 MCP 网关的关键问题。