Tag

#AI 安全

#AI 安全标签文章合集，收录 Diors.tech 中与 AI 安全相关的 AI 学习笔记、技术拆解和工程实践。

6 篇文章

2026/06/24 工程与生产

AI Control：把自主 Agent 当作内部威胁来设计

结合 2026 年 6 月 Google DeepMind AI Control Roadmap 的公开报道、International AI Safety Report、AI Agent Index 与 agent containment 研究，整理为什么高自治 Agent 不能只靠 alignment，还要按内部威胁模型设计监控、隔离、审计和降级。

2026/06/24 工程与生产

AI Cyber Defense 2026：当模型开始批量找漏洞，防守方怎么重写安全流程

结合 2026 年 6 月 OpenAI 网络安全项目报道、Five Eyes 对 frontier AI cyber 风险的警告，以及 AgentCyberRange 等新评测，梳理 AI 进入漏洞发现、补丁生成、开源维护和安全运营后，企业安全流程该怎样改。

2026/06/03 工程与生产

Agent 安全与权限模型：别把防线只写在 prompt 里

结合 2026 年 prompt injection、防工具滥用、MCP 与 Computer Use 的新风险，梳理 Agent 产品应该怎样设计权限、确认、沙箱、审计、数据流隔离和安全评测。

2026/04/01 智能体 (Agents)

Self-Verification：Agent 如何自我验证

验证链、Critic Agent、形式化与事实性验证、Constitutional AI、Guardrail 与成本权衡——从「好用」到「可信」

2026/03/24 OpenClaw

安全模型与最佳实践

梳理 OpenClaw 的安全模型与最佳实践，覆盖 DM Pairing、Sandbox、openclaw doctor、权限边界与生产部署清单。

2026/03/22 工程与生产

AI 安全与防护

AI 专属安全威胁：Prompt Injection、数据泄露、内容安全。防御策略、Guardrails、访问控制与 Red Teaming