工程与生产专题

记录模型选择、推理成本、可观测性、评测、安全、权限和 AI 工程平台化这些真正上线后会遇到的问题。

AI Engineering评测成本安全

23 篇文章

2026/06/24 AI Engineering

AI Control：把自主 Agent 当作内部威胁来设计

结合 2026 年 6 月 Google DeepMind AI Control Roadmap 的公开报道、International AI Safety Report、AI Agent Index 与 agent containment 研究，整理为什么高自治 Agent 不能只靠 alignment，还要按内部威胁模型设计监控、隔离、审计和降级。

2026/06/24 AI Engineering

AI Cyber Defense 2026：当模型开始批量找漏洞，防守方怎么重写安全流程

结合 2026 年 6 月 OpenAI 网络安全项目报道、Five Eyes 对 frontier AI cyber 风险的警告，以及 AgentCyberRange 等新评测，梳理 AI 进入漏洞发现、补丁生成、开源维护和安全运营后，企业安全流程该怎样改。

2026/06/10 AI Engineering

AI Engineer 知识地图 2026：从基础设施工程师到 AI Builder

基于 AI Engineer Knowledge Map 2026 这张能力地图，重新整理现代 AI Engineer 的知识结构：基础设施、数据、LLM、推理、RAG、Agent、安全、评测、FinOps 与业务理解。

2026/06/03 AI Engineering

Agent Runtime：为什么下一代 AI 产品像一个小操作系统

从 Responses API、Agents SDK、MCP、Computer Use、WebSocket agent loop 和 Claude Agent SDK 出发，梳理 Agent Runtime 为什么会成为 AI 产品的核心底座，以及团队该怎样设计状态、工具、权限、沙箱、评测和可观测性。

2026/06/03 AI Engineering

Agent 安全与权限模型：别把防线只写在 prompt 里

结合 2026 年 prompt injection、防工具滥用、MCP 与 Computer Use 的新风险，梳理 Agent 产品应该怎样设计权限、确认、沙箱、审计、数据流隔离和安全评测。

2026/06/03 AI Engineering

Real-World Evals：为什么 GDPval 比刷榜更值得看

从 GDPval、SWE-bench Verified、BrowseComp 和私有评测出发，说明 2026 年 AI Agent 评估为什么要从公开榜单转向真实交付物、业务闭环和可复现评测。

2026/06/03 AI Engineering

模型路由 2026：不要把所有任务都交给同一个模型

结合 GPT-5.5、Claude、Gemini、开源模型、OpenRouter 与私有评测，梳理 2026 年为什么 AI 产品需要模型路由，以及怎样按任务风险、成本、延迟和能力做自动切换。

2026/05/25 Claude Code

Claude Code 构建经验：为什么 Prompt Caching 是 Agent 的地基

基于 Claude Code 团队关于 prompt caching 的工程经验，拆解长任务 Agent 为什么必须围绕缓存来设计：静态前缀、工具集合、模型切换、compaction 和缓存命中率监控。

2026/05/25 Claude Code

Claude Code 构建经验：像 Agent 一样设计工具

基于 Claude Code 团队的工具设计经验，讨论 Agent harness 里最难的一件事：不是工具越多越好，而是给模型一个它真的会理解、会使用、会自我校正的行动空间。

2026/05/25 Claude Code

Claude Code 构建经验：Skills 不是 Markdown，而是能力包

基于 Claude Code 团队关于 Skills 的实践经验，梳理什么样的 skill 值得做、如何写出高信号密度的 skill、如何用文件系统和脚本做渐进披露，以及团队如何分发和衡量 skill。

2026/04/10 AI Engineering

Agent-to-Agent 协议：从 2025-04 到 2026-Q2 一周年回顾

Google A2A 在 2025-04-09 发布，2025-06-23 进入 Linux Foundation 治理，2026-03 发布 v1.0，2026-04 一周年时支持组织数已破 150。MCP 解决 Agent ↔ Tool，A2A 解决 Agent ↔ Agent，两者正在成为 Agent 基础设施的一对协议。

2026/04/09 AI Engineering

Vibe Coding 与 Spec-Driven Development：2026 Q2 软件开发的两条新文化线

讨论 2026 Q2 软件开发的两条文化线：自然语言驱动的 vibe coding 与大公司推崇的 spec-driven development，以及团队该如何在速度和可维护性之间取舍。

2026/04/08 AI Engineering

Agent Benchmark 2026 H1 综合横评：SWE-bench / OSWorld / WebArena / SWE-Lancer

横评 2026 H1 主流 Agent benchmark，包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval，分析它们各自测什么、不测什么，以及刷榜见顶后的评估方向。

2026/04/05 AI Engineering

MCP 生态 2026 Q2 现状：从协议到事实标准

梳理 MCP 在 2026 Q2 的生态现状：主流主机支持、OAuth 2.1 PKCE、权限模型、第三方 server 可信度，以及企业部署 MCP 网关的关键问题。

2026/04/01 AI Engineering

Eval Harness 实战：从工具到自建评估体系

用漏斗式视角理解 Eval Harness：工具选型、lm-eval 与 promptfoo 实战、自建四支柱、Flaky Eval 处理，以及与 Agent Harness 的关系。

2026/03/22 AI Engineering

AI 系统架构设计

AI 系统与传统软件的本质差异、分层架构设计、微服务 vs 单体、核心组件选型，以及从 MVP 到企业级的部署演进

2026/03/22 AI Engineering

模型推理优化

推理延迟与成本是 AI 应用的两大痛点。Batching、KV Cache、量化、Speculative Decoding 等优化技术详解，以及 vLLM、TGI、TensorRT-LLM 等推理框架的工程取舍

2026/03/22 AI Engineering

AI 成本优化

Token 成本拆解、Prompt 优化、缓存策略、模型路由、Cascade 模式、自托管 vs API 成本分析，以及预算监控与告警

2026/03/22 AI Engineering

模型选型策略

2026 年模型 landscape、评估维度、能力矩阵、场景映射、开源 vs 闭源、多模型策略，以及如何规避 vendor lock-in

2026/03/22 AI Engineering

AI 评估体系

为什么评估是 AI 工程最被低估的环节。Benchmark、离线评估、在线评估、LLM-as-judge、评估流水线与持续监控

2026/03/22 AI Engineering

AI 系统监控

AI 可观测性与传统 APM 的差异。Trace、指标、评估三支柱，关键指标定义，日志最佳实践，以及 LangSmith、Langfuse 等工具

2026/03/22 AI Engineering

AI 安全与防护

AI 专属安全威胁：Prompt Injection、数据泄露、内容安全。防御策略、Guardrails、访问控制与 Red Teaming

2026/03/16 AI Engineering

Prompt 版本管理

Prompt 即代码：版本控制、测试、A/B、Registry、模板化。Prompt 生命周期与团队协作，以及 Humanloop、LangSmith Hub 等工具