Tag

#2026Q2

#2026Q2 标签文章合集，收录 Diors.tech 中与 2026Q2 相关的 AI 学习笔记、技术拆解和工程实践。

18 篇文章

2026/06/24 工程与生产

AI Control：把自主 Agent 当作内部威胁来设计

结合 2026 年 6 月 Google DeepMind AI Control Roadmap 的公开报道、International AI Safety Report、AI Agent Index 与 agent containment 研究，整理为什么高自治 Agent 不能只靠 alignment，还要按内部威胁模型设计监控、隔离、审计和降级。

2026/06/24 工程与生产

AI Cyber Defense 2026：当模型开始批量找漏洞，防守方怎么重写安全流程

结合 2026 年 6 月 OpenAI 网络安全项目报道、Five Eyes 对 frontier AI cyber 风险的警告，以及 AgentCyberRange 等新评测，梳理 AI 进入漏洞发现、补丁生成、开源维护和安全运营后，企业安全流程该怎样改。

2026/06/10 工程与生产

AI Engineer 知识地图 2026：从基础设施工程师到 AI Builder

基于 AI Engineer Knowledge Map 2026 这张能力地图，重新整理现代 AI Engineer 的知识结构：基础设施、数据、LLM、推理、RAG、Agent、安全、评测、FinOps 与业务理解。

2026/06/03 工程与生产

Agent Runtime：为什么下一代 AI 产品像一个小操作系统

从 Responses API、Agents SDK、MCP、Computer Use、WebSocket agent loop 和 Claude Agent SDK 出发，梳理 Agent Runtime 为什么会成为 AI 产品的核心底座，以及团队该怎样设计状态、工具、权限、沙箱、评测和可观测性。

2026/06/03 工程与生产

Agent 安全与权限模型：别把防线只写在 prompt 里

结合 2026 年 prompt injection、防工具滥用、MCP 与 Computer Use 的新风险，梳理 Agent 产品应该怎样设计权限、确认、沙箱、审计、数据流隔离和安全评测。

2026/06/03 工程与生产

Real-World Evals：为什么 GDPval 比刷榜更值得看

从 GDPval、SWE-bench Verified、BrowseComp 和私有评测出发，说明 2026 年 AI Agent 评估为什么要从公开榜单转向真实交付物、业务闭环和可复现评测。

2026/06/03 工程与生产

模型路由 2026：不要把所有任务都交给同一个模型

结合 GPT-5.5、Claude、Gemini、开源模型、OpenRouter 与私有评测，梳理 2026 年为什么 AI 产品需要模型路由，以及怎样按任务风险、成本、延迟和能力做自动切换。

2026/06/03 前沿探索

Embodied AI 与机器人：从会说话的模型到会动手的系统

结合 Gemini Robotics 1.5、V-JEPA 2、world model、Computer Use 和机器人基础模型，梳理 2026 年 Embodied AI 为什么值得记录，以及它离真正通用家用机器人还有多远。

2026/04/21 产品与设计

AI-Native 浏览器 2026 H1：Comet / ChatGPT Atlas / Dia 三家如何重做 Web

Perplexity Comet 已扩展到桌面和移动端，OpenAI ChatGPT Atlas、The Browser Company Dia 等产品也在重做浏览器入口。和「Chrome + 插件 + ChatGPT 标签页」不是一回事——AI-native browser 把 LLM 当一等公民，URL 退到次位。本文是这条新赛道的产品与功能切片。

2026/04/20 前沿探索

AI for Science 2026 H1：AlphaFold 3、药物设计引擎与科学 Agent

梳理 2026 H1 AI for Science 三条主线：AlphaFold 3 与药物发现、材料生成模型、科学 Agent，讨论它们进入科研工作流后的机会和边界。

2026/04/18 前沿探索

World Models 2026 H1：Genie 3 / Project Genie 把「可交互的世界」推进生产线

拆解 World Models 在 2026 H1 的进展，重点看 Genie 3、Project Genie 与可交互世界生成，解释它和视频生成、Robotics、Agent、游戏之间的关系。

2026/04/13 前沿探索

开源 LLM 2026 H1 格局：从「追赶」到「分轨竞争」

2026 H1 是开放权重 / 开源 LLM 第一次在多个赛道逼近 frontier 闭源模型的半年。Llama 4、DeepSeek、Qwen、GLM、Gemma 等模型在 reasoning、coding、Agent、小型本地等维度形成分轨竞争。本文按六条赛道梳理现状，给出选型决策树与本地部署成本参考。

2026/04/10 工程与生产

Agent-to-Agent 协议：从 2025-04 到 2026-Q2 一周年回顾

Google A2A 在 2025-04-09 发布，2025-06-23 进入 Linux Foundation 治理，2026-03 发布 v1.0，2026-04 一周年时支持组织数已破 150。MCP 解决 Agent ↔ Tool，A2A 解决 Agent ↔ Agent，两者正在成为 Agent 基础设施的一对协议。

2026/04/09 工程与生产

Vibe Coding 与 Spec-Driven Development：2026 Q2 软件开发的两条新文化线

讨论 2026 Q2 软件开发的两条文化线：自然语言驱动的 vibe coding 与大公司推崇的 spec-driven development，以及团队该如何在速度和可维护性之间取舍。

2026/04/08 工程与生产

Agent Benchmark 2026 H1 综合横评：SWE-bench / OSWorld / WebArena / SWE-Lancer

横评 2026 H1 主流 Agent benchmark，包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval，分析它们各自测什么、不测什么，以及刷榜见顶后的评估方向。

2026/04/07 前沿探索

Video Generation 2026 H1：Sora 2 API / Veo 3.1 / Runway / Luma

视频生成到 2026 H1 已经跨过“只能看 demo”的阶段，但平台可用性变化很快：OpenAI Sora Web/App 已于 2026-04-26 停用，Sora 2 仍应按模型/API 能力而非消费级工作流来评估。本文梳理 Sora 2、Veo 3.1、Runway、Luma 的能力边界、适用场景、评估方法和现实限制。

2026/04/06 前沿探索

Voice AI 与实时语音 Agent：从拼装管线到可部署系统

实时语音 Agent 这条线已经从 ASR + LLM + TTS 的拼装方案，走向更完整的语音到语音系统。本文梳理其架构变化、工程难点、适用场景，以及它和 Computer Use / Hermes Agent 的关系。

2026/04/05 工程与生产

MCP 生态 2026 Q2 现状：从协议到事实标准

梳理 MCP 在 2026 Q2 的生态现状：主流主机支持、OAuth 2.1 PKCE、权限模型、第三方 server 可信度，以及企业部署 MCP 网关的关键问题。