Notes

#AI for Science#AlphaFold#Drug Discovery

Apr 20, 2026 前沿探索

AI for Science 2026 H1：从 AlphaFold 3 到 IsoDDE，「药物发现 Hit-to-Lead」从年降到月

2024 年底 AlphaFold 3 (DeepMind + Isomorphic Labs) 把蛋白 / DNA / RNA / 小分子统一成一个 diffusion network 来预测所有原子级交互；2026-02 Isomorphic Labs 又推出 IsoDDE（Drug Design Engine）把 AF3 在 protein-ligand 上准确率翻倍，被业界称作 'AlphaFold 4'。本文是 H1 AI for Science 当下事实切片：药物发现、材料发现、Agent for Science 三条主线。

#World Model#Genie#DeepMind

Apr 18, 2026 前沿探索

World Models 2026 H1：Genie 3 / Project Genie 把「可交互的世界」推进生产线

Genie 3 (DeepMind, 2025-08) 不是另一个文生视频模型——它生成的是用户可以实时走进去、改变、互动的「世界」。2026-01 Project Genie 在 Google AI Ultra (US) 上线，让普通用户能把它当工具用。本文梳理 World Model 是什么、和视频生成的本质区别、当前能 / 不能做的事，以及它和 Robotics / Agent / 游戏之间的关系。

Apr 13, 2026 前沿探索

开源 LLM 2026 H1 格局：从「追赶」到「分轨竞争」

2026 H1 是开源 LLM 第一次集体把 frontier 闭源逼出明显差异化窗口的半年。Llama 4 / DeepSeek-R1 / Qwen3.5 / Hermes 4.3 / Mistral Magistral 在不同维度做到 SOTA 接近或反超闭源。本文按「frontier 反超 / 推理 / 编程 / Agent / 多模态 / 小型本地」六轨梳理开源现状，给出选型决策树与本地部署成本参考。

#开源#LLM#Llama

Apr 10, 2026 工程与生产

Agent-to-Agent 协议：从 2025-04 到 2026-Q2 一周年回顾

Google A2A 在 2025-04-09 发布、6-23 捐给 Linux Foundation、2026-03 出 v1.0、2026-04 一周年时支持组织数已破 150。MCP 解决 Agent ↔ Tool，A2A 解决 Agent ↔ Agent，两者已不是「未来」，是 H1 实质生产部署的一对协议。本文是去掉「还在草案」过度保守判断后的当下事实。

#A2A#ACP#MCP

#Vibe Coding#Spec-Driven#Agent

Apr 09, 2026 工程与生产

Vibe Coding 与 Spec-Driven Development：2026 Q2 软件开发的两条新文化线

Karpathy 在 2025 年 2 月造的「vibe coding」一词，到 2026 Q2 已经从 meme 变成生产现实——一群人不读代码、只看效果，用自然语言驱动 Agent 写完整产品。同时另一极方向「spec-driven development」也在大公司里成型——把规约（spec）作为代码之上更稳定的事实源。两条看似相反的文化线，正在重新定义软件团队的工作方式。

#Benchmark#Agent#SWE-bench

Apr 08, 2026 工程与生产

Agent Benchmark 2026 H1 综合横评：SWE-bench / OSWorld / WebArena / SWE-Lancer

2026 H1 是 Agent benchmark 第一次「全员逼近天花板」的半年。SWE-bench Verified 80%+ 已不再稀奇、OSWorld 突破人类基线、WebArena 超过 70%。本文横向梳理主流 Agent benchmark 当前状态、它们各自测什么 / 不测什么、刷榜 ROI 见底之后，下一阶段该看哪些新 benchmark。

#Video Generation#Sora#Veo

Apr 07, 2026 前沿探索

Video Generation 2026 H1：Sora 2 / Veo 3.1 / Runway / Luma

视频生成到 2026 H1 已经跨过“只能看 demo”的阶段。本文梳理 Sora 2、Veo 3.1、Runway、Luma 的能力边界、适用场景、评估方法和现实限制。

#Voice AI#Realtime#Speech

Apr 06, 2026 前沿探索

Voice AI 与实时语音 Agent：从拼装管线到可部署系统

实时语音 Agent 这条线已经从 ASR + LLM + TTS 的拼装方案，走向更完整的语音到语音系统。本文梳理其架构变化、工程难点、适用场景，以及它和 Computer Use / Hermes Agent 的关系。

Apr 05, 2026 工程与生产

MCP 生态 2026 Q2 现状：从协议到事实标准

MCP（Model Context Protocol）从 Anthropic 2024 年 11 月发布到 2026 年 Q2，已成为 Agent 工具协议的事实标准。本文梳理它在主流主机（Claude / Cursor / OpenAI / Gemini / Hermes Agent）里的实现现状、OAuth 2.1 PKCE 与权限模型、第三方 server 的可信度评估、企业部署里那些必须解决的问题，以及它和 OpenAI Plugins、Function Calling、Function Tool 之间的关系。

#MCP#协议#Agent

#AI Research#Diffusion LLM#Mercury

Apr 04, 2026 前沿探索

Diffusion LLM：当语言模型不再一个 token 一个 token 写

Mercury 2 在 2026 年 2 月把扩散语言模型推到 1000+ tokens/秒，成为第一个商用产线级的非自回归 LLM。LLaDA 也证明了 8B 扩散模型可以追上 LLaMA3 8B。本文拆解扩散 LLM 的工作原理、它和自回归 LLM 的根本区别、能用在哪、不能用在哪，以及它会不会颠覆 Transformer。

Apr 03, 2026 智能体 (Agents)

Computer Use Agents：让模型直接操作你的电脑

2025 末到 2026 年第一季度，Claude Computer Use、OpenAI Operator、Manus Desktop 接连进入生产可用状态。这一类 Agent 不调 API、不用 SDK，直接用截屏 + 鼠标键盘和真实软件交互。本文拆解它的工作原理、OSWorld benchmark 现状、三家产品差异，以及为什么它和传统 Tool Calling Agent 是两种不同物种。

#Agent#Computer Use#Manus

Apr 02, 2026 智能体 (Agents)

Hermes Agent：一个会自己长出技能的 24/7 个人 AI

Nous Research 在 2026 年 2 月开源的 Hermes Agent 不到两个月就拿到接近十万 stars。它不是又一个 ReAct 包装器，而是一个把 skills、记忆、网关、模型路由全部塞进同一个进程的「常驻 Agent」。本文拆解它的架构、闭环学习机制，以及它为什么是 2026 上半年最值得关注的开源 Agent 项目。

#Agent#Hermes#Nous Research

#AI#LLM#Context Engineering

Apr 01, 2026 基础概念

Context Engineering：从 Prompt 到上下文的范式升级

2025–2026 最热概念：不只写好 prompt，而是系统编排进入模型的信息——组件、budget、质量与评估一次讲清

Apr 01, 2026 基础概念

CoT 深度：从 Zero-shot 到 Tree-of-Thought

梳理 Chain-of-Thought 的演进：Zero-shot / Few-shot、结构化 CoT、ToT / GoT、推理模型内化，以及反直觉坑与实战选型。

#AI#CoT#推理

Apr 01, 2026 智能体 (Agents)

持久记忆：让 Agent 真正「记住」

跨会话记忆的三层架构、Letta/MemGPT 实战、Mem0 与 Zep 对比、图谱与向量混合、Memory as a Service 与隐私合规

#Agent#Memory#Letta

Apr 01, 2026 智能体 (Agents)

Self-Verification：Agent 如何自我验证

验证链、Critic Agent、形式化与事实性验证、Constitutional AI、Guardrail 与成本权衡——从「好用」到「可信」

#Agent#Self-Verification#Verification Chain

Apr 01, 2026 智能体 (Agents)

AI Coding Agent 全景

从 Copilot 到自主 Agent 的跃迁；Cursor、Devin、Windsurf、OpenHands、SWE-agent、Aider、Claude Code 对比；SWE-bench、架构循环与 Agent-Native 工作流

#Agent#Coding#SWE-bench

Apr 01, 2026 工程与生产

Eval Harness 实战：从工具到自建评估体系

用漏斗式视角理解 Eval Harness：工具选型、lm-eval 与 promptfoo 实战、自建四支柱、Flaky Eval 处理，以及与 Agent Harness 的关系。

#AI#评估#Eval Harness

#AI Research#MoE#Reasoning

新一代模型

MoE、Reasoning Models、SSM、多模态原生——2026 年模型架构与前沿趋势全解析

#AI Research#Multimodal#VLM

Multimodal AI

从文本到视觉、音频、视频——多模态 AI 的技术架构、应用场景与挑战

LLM Agents 研究前沿

ReAct、Reflexion、Voyager、CAMEL——Agent 学术研究的关键论文、Benchmark 与未来方向

#AI Research#Agent#ReAct

AI 系统未来形态

从 AGI 时间线到基础设施演进，从社会影响到监管格局——AI 未来的多维度展望

#AI Research#AGI#未来

OpenClaw 是什么

从定位、架构到边界，理解 GitHub 热门开源个人 AI 助手 OpenClaw

#OpenClaw#AI 助手#开源

快速上手

从安装到发送第一条消息，OpenClaw 快速上手指南

#OpenClaw#安装#Onboarding

系统架构详解

深入理解 OpenClaw 的 Gateway、Pi Agent、WebSocket 与会话模型

#OpenClaw#架构#Gateway

频道配置大全

WhatsApp、Telegram、Slack、Discord 等 20+ 消息频道的配置与路由

#OpenClaw#频道#WhatsApp

Agent 与 Skills 系统

Agent Runtime、Workspace、Skills、ClawHub 与聊天命令详解

#OpenClaw#Agent#Skills

#OpenClaw#工具#Browser Control

工具与自动化

Browser Control、Canvas、Nodes、Cron、Webhooks、Voice 与媒体管道

部署方案详解

Docker、Podman、Remote Gateway、Tailscale、Nix 与云部署完整指南

#OpenClaw#部署#Docker

安全模型与最佳实践

DM Pairing、Sandbox、openclaw doctor 与生产部署安全清单

#OpenClaw#安全#DM Pairing

MCP 与插件生态

mcporter 桥接、Plugin API、Memory 插件，以及 Skills / Plugins / MCP 的边界与选型

#OpenClaw#MCP#mcporter

实战案例与工作流

个人助理、开发、团队协作、家居自动化、内容创作与常用模式

#OpenClaw#实战#工作流

社区与未来

贡献指南、Vision 优先级、不会合并的边界与长期方向

#OpenClaw#社区#贡献

AI 交互设计

从对话式 UI 到信任设计，掌握 AI 产品交互的核心模式与反模式

#AI Product#交互设计#UX

#AI Product#Copilot#Agent

AI 产品模式图谱

Copilot、Agent、Automation 三大模式详解，以及如何为产品选择与演进

AI 产品增长策略

数据飞轮、网络效应、病毒传播——AI 产品的独特增长逻辑与实战案例

#AI Product#增长#数据飞轮

AI 商业化

从定价模型到单位经济，系统理解 AI 产品的商业化挑战与可持续路径

#AI Product#商业化#定价

#RAG#Graph RAG#Knowledge Graph

Graph RAG

当向量检索遇到知识图谱：用实体、关系与图遍历，补足纯向量 RAG 在多跳推理上的天然短板

长上下文模型与 RAG 的关系

百万 token 上下文来了，RAG 还有必要吗？答案不是替代，而是分工：长上下文解决“能看多长”，RAG 解决“该看什么”

#RAG#长上下文#Long Context

图片与文档 RAG

超越纯文本：当知识存在于 PDF、表格、图表、扫描件和图片中，多模态 RAG 如何重建检索与理解链路

#RAG#Multimodal#PDF

RAG 评测体系

RAG 好不好，不能只看答案像不像对：从检索、忠实度、引用、线上反馈到回归测试，建立一套真正能指导迭代的评测框架

#RAG#Evaluation#RAGAS

#RAG#Production#Architecture

生产级 RAG 系统架构

从 Demo 到 Production：可靠性、可扩展性、可观测性与成本控制

Agent 是什么

从定义、与 Chatbot 的差异、核心能力到真实案例，理解 AI Agent 的本质与边界

#Agent#AI#LLM

ReAct 模式

Reasoning + Acting 如何交织、ReAct 循环的运作方式、优势与局限，以及实践中的实现要点

#Agent#ReAct#Reasoning

#Agent#Plan & Execute#Planner

Plan & Execute

先规划再执行的两阶段架构、Replanning 机制、与 ReAct 的对比，以及 LangGraph 等实现方式

Agent 系统组成

Planner、Executor、Memory、Tools 四大支柱如何协同，以及 Agent 循环与架构模式

#Agent#架构#Planner

Multi-Agent 系统

多 Agent 协作的通信模式、角色分工、编排策略，以及 CrewAI、AutoGen 等框架与实战考量

#Agent#Multi-Agent#协作

Agent Memory 系统

为什么 Agent 需要记忆、五种记忆类型、MemGPT 虚拟内存、以及实现策略

#Agent#Memory#RAG

#Agent#Self-improvement#Voyager

Self-improving Agents

让 Agent 越用越好的愿景、技能库、Prompt 进化、人机反馈循环与当前局限

#Agent#LangGraph#LangChain

LangGraph

用图结构构建有状态的多步骤 Agent 工作流 —— LangGraph 核心概念、设计模式与实战

AutoGPT

点燃 Agent 革命的先驱、架构与局限、遗产与教训、自主性谱系

#Agent#AutoGPT#自主系统

#Agent#CrewAI#Multi-Agent

CrewAI

基于角色协作的多 Agent 框架 —— 核心概念、工作流设计、Flows 演进与实战对比

AI 工作流自动化

从单 Agent 到端到端流程、文档/代码/数据/客服工作流、编排工具与监控

#Agent#工作流#自动化

AI 系统架构设计

AI 系统与传统软件的本质差异、分层架构设计、微服务 vs 单体、核心组件选型，以及从 MVP 到企业级的部署演进

#AI#架构#微服务

模型推理优化

推理延迟与成本是 AI 应用的两大痛点。Batching、KV Cache、量化、Speculative Decoding 等优化技术详解，以及 vLLM、TGI、TensorRT-LLM 等推理框架的工程取舍

#AI#推理#vLLM

AI 成本优化

Token 成本拆解、Prompt 优化、缓存策略、模型路由、Cascade 模式、自托管 vs API 成本分析，以及预算监控与告警

#AI#成本#缓存

模型选型策略

2026 年模型 landscape、评估维度、能力矩阵、场景映射、开源 vs 闭源、多模型策略，以及如何规避 vendor lock-in

#AI#模型选型#LLM

AI 评估体系

为什么评估是 AI 工程最被低估的环节。Benchmark、离线评估、在线评估、LLM-as-judge、评估流水线与持续监控

#AI#评估#Benchmark

AI 系统监控

AI 可观测性与传统 APM 的差异。Trace、指标、评估三支柱，关键指标定义，日志最佳实践，以及 LangSmith、Langfuse 等工具

#AI#监控#可观测性

AI 安全与防护

AI 专属安全威胁：Prompt Injection、数据泄露、内容安全。防御策略、Guardrails、访问控制与 Red Teaming

#AI#安全#Prompt Injection

#AI Product#产品设计#AI-first

Mar 22, 2026 产品与设计

AI 产品设计方法

从 AI-first 思维到用户价值框架，系统掌握 AI 产品设计的核心方法论

Mar 21, 2026 检索增强 (RAG)

Self-RAG

让模型自己决定何时检索、如何评估检索质量，突破传统 RAG 的固定检索模式

#RAG#Self-RAG#自适应检索

#RAG#Agentic RAG#LangGraph

Mar 21, 2026 检索增强 (RAG)

Agentic RAG

当 LLM 开始主导检索流程：从固定管道到动态决策，理解 Agentic RAG 的能力、代价与工程边界

#RAG#Rerank#Cross-encoder

Mar 20, 2026 检索增强 (RAG)

Rerank 模型

Bi-encoder 与 Cross-encoder 的取舍，两阶段检索模式，以及 Rerank 在 RAG 中的实战价值

Mar 19, 2026 检索增强 (RAG)

文档切分策略

Chunking 是 RAG 的基础：切太大引入噪声，切太小丢失上下文。本文详解各类切分策略与最佳实践

#RAG#Chunking#文档切分

Mar 18, 2026 检索增强 (RAG)

RAG 是什么

从知识截止、幻觉和私有数据三大痛点出发，理解 Retrieval-Augmented Generation 的本质与价值

#RAG#LLM#检索增强

Mar 18, 2026 检索增强 (RAG)

RAG 系统架构详解

从 Query 到 Response 的完整 RAG 流水线，以及索引与查询两条主线的设计要点

#RAG#Pipeline#架构

向量数据库

为什么需要向量数据库、ANN 算法原理、主流产品对比，以及何时用专用向量 DB 何时用 pgvector

#AI#向量数据库#RAG

Embedding 原理

从文本到向量：Embedding 如何将语义编码成数字，以及 Cosine Similarity、主流模型与实战应用

#AI#Embedding#向量

上下文窗口与 LLM 记忆机制

Context Window 如何工作、对话记忆如何维护、RAG 如何扩展知识边界——LLM 记忆全景图

#AI#LLM#Context Window

Prompt 工程入门

角色设定、Few-shot、指令设计、Chain-of-Thought——从零到写出高质量 Prompt 的完整指南

#AI#LLM#Prompt

#AI#Tool Calling#Function Calling

Tool Calling 原理

为什么 LLM 需要工具、Function Calling 与 Tool Use 的区别、MCP 协议，以及如何安全地让模型调用外部能力

AI 应用系统架构

从前端到模型层：AI 应用典型技术栈、各层职责、Orchestration 层详解，以及如何根据场景选架构

#AI#架构#RAG

Prompt 系统设计

结构化输出、模板管理、多轮设计、分层 System Prompt——生产级 Prompt 架构实战

#AI#LLM#Prompt

从 0 到 1 构建 AI 助手

综合 Prompt、RAG、Tool Calling，手把手搭建一个可运行的 AI 助手：系统设计、技术栈、代码结构、常见坑

#AI#实战#RAG

Mar 16, 2026 基础概念

推理能力从哪里来

预训练、微调、RLHF、推理模型——从 Base Model 到 ChatGPT 的完整训练链路

#AI#LLM#预训练

Mar 16, 2026 检索增强 (RAG)

检索质量优化

Sparse、Dense、Hybrid 检索，多阶段检索架构、Query 变换与评估调优实践

#RAG#检索#BM25

Mar 16, 2026 智能体 (Agents)

Reflection

Agent 如何通过自我评估与修正提升输出、Reflexion 模式、实现方式与适用场景

#Agent#Reflection#Reflexion

Mar 16, 2026 工程与生产

Prompt 版本管理

Prompt 即代码：版本控制、测试、A/B、Registry、模板化。Prompt 生命周期与团队协作，以及 Humanloop、LangSmith Hub 等工具

#AI#Prompt#版本管理

Mar 16, 2026 OpenClaw

多平台客户端

macOS App、iOS Node、Android Node 与 Gateway 协议详解

#OpenClaw#macOS#iOS

Mar 15, 2026 基础概念

大语言模型是如何“思考”的

从 Transformer 架构、Attention 机制、Token 预测到 Scaling Law，拆解 LLM 的底层运作逻辑

#AI#LLM#Transformer

Mar 14, 2026 基础概念

AI 黑话通关手册

30+ AI 核心术语，一篇全搞定。不讲废话，每个词给你一句人话 + 原理 + 真实案例。读完你就能看懂大多数 AI 讨论。

#AI#LLM#入门