学习路径

按顺序学习,减少信息噪音,建立可复用的 AI 知识框架。

Stage 01 6 notes

Part 01 · AI 基础概念

先把术语、推理、上下文和 Prompt 基础打牢。

  1. AI 黑话通关手册 30+ AI 核心术语,一篇全搞定。不讲废话,每个词给你一句人话 + 原理 + 真实案例。读完你就能看懂大多数 AI 讨论。
  2. 大语言模型是如何“思考”的 从 Transformer 架构、Attention 机制、Token 预测到 Scaling Law,拆解 LLM 的底层运作逻辑
  3. 推理能力从哪里来 从预训练、微调、RLHF/DPO 到推理模型,拆解大语言模型能力形成路径,理解 Base Model、ChatGPT 与 reasoning model 的关系。
  4. 上下文窗口与 LLM 记忆机制 Context Window 如何工作、对话记忆如何维护、RAG 如何扩展知识边界——LLM 记忆全景图
  5. Prompt 工程入门 角色设定、Few-shot、指令设计、Chain-of-Thought——从零到写出高质量 Prompt 的完整指南
  6. Prompt 系统设计 从结构化输出、模板管理、多轮状态到分层 System Prompt,讲清生产级 Prompt 系统如何设计、测试与维护。
Stage 02 8 notes

Part 02 · RAG 体系化进阶

从检索链路到评测与生产实践。

  1. RAG 是什么 从知识截止、幻觉和私有数据三大痛点出发,理解 Retrieval-Augmented Generation 的本质与价值
  2. RAG 系统架构详解 拆解从 Query 到 Response 的完整 RAG 流水线,覆盖离线索引、在线查询、检索增强、上下文组装与回答生成。
  3. 文档切分策略 Chunking 是 RAG 的基础:切太大引入噪声,切太小丢失上下文。本文详解各类切分策略与最佳实践
  4. 检索质量优化 系统讲解 Sparse、Dense、Hybrid 检索、多阶段召回、Query 变换与评估调优,帮助生产级 RAG 提升检索质量。
  5. Rerank 模型 Bi-encoder 与 Cross-encoder 的取舍,两阶段检索模式,以及 Rerank 在 RAG 中的实战价值
  6. Self-RAG 解释 Self-RAG 如何让模型自主决定何时检索、如何评估证据与回答质量,以及它相对传统固定检索管线的价值和边界。
  7. RAG 评测体系 RAG 好不好,不能只看答案像不像对:从检索、忠实度、引用、线上反馈到回归测试,建立一套真正能指导迭代的评测框架
  8. 生产级 RAG 系统架构 从 Demo 到 Production,拆解生产级 RAG 的可靠性、可扩展性、可观测性、权限、评估与成本控制设计。
Stage 03 7 notes

Part 03 · Agent 设计与工程

理解 Agent 架构、规划执行与多 Agent 协作。

  1. Agent 是什么 从定义、核心能力、和 Chatbot 的差异到真实案例,系统理解 AI Agent 的本质、边界和工程落地方式。
  2. Agent 系统组成 Planner、Executor、Memory、Tools 四大支柱如何协同,以及 Agent 循环与架构模式
  3. Plan & Execute 先规划再执行的两阶段架构、Replanning 机制、与 ReAct 的对比,以及 LangGraph 等实现方式
  4. Reflection 讲解 Agent 如何通过自我评估、批评、修正和 Reflexion 模式提升输出质量,以及 Reflection 的适用场景和局限。
  5. Multi-Agent 系统 多 Agent 协作的通信模式、角色分工、编排策略,以及 CrewAI、AutoGen 等框架与实战考量
  6. Agent Memory 系统 解释 Agent 为什么需要记忆,梳理短期记忆、长期记忆、用户档案、工具状态与 MemGPT 虚拟内存等实现策略。
  7. LangGraph 用图结构构建有状态的多步骤 Agent 工作流,讲清 LangGraph 的核心概念、节点边状态、设计模式与实战取舍。
Stage 04 6 notes

Part 04 · OpenClaw 实战

围绕 OpenClaw 从概念到部署的完整实践路线。

  1. OpenClaw 是什么 从定位、架构、使用场景到能力边界,理解 GitHub 热门开源个人 AI 助手 OpenClaw 的核心设计。
  2. 快速上手 OpenClaw 快速上手指南:从安装、配置、启动到发送第一条消息,帮助你跑通个人 AI 助手的最小闭环。
  3. 系统架构详解 深入理解 OpenClaw 的 Gateway、Pi Agent、WebSocket、会话模型与多端架构,建立二次开发所需的系统视角。
  4. 工具与自动化 Browser Control、Canvas、Nodes、Cron、Webhooks、Voice 与媒体管道
  5. 部署方案详解 Docker、Podman、Remote Gateway、Tailscale、Nix 与云部署完整指南
  6. 实战案例与工作流 整理 OpenClaw 的实战案例与工作流,包括个人助理、开发协作、团队通知、家居自动化和内容创作场景。
Stage 05 17 notes

Part 05 · AI 工程化与生产

从模型选择、评测、可观测性、成本到安全治理,把 AI 应用推进真实生产环境。

  1. AI 系统架构设计 AI 系统与传统软件的本质差异、分层架构设计、微服务 vs 单体、核心组件选型,以及从 MVP 到企业级的部署演进
  2. 模型推理优化 推理延迟与成本是 AI 应用的两大痛点。Batching、KV Cache、量化、Speculative Decoding 等优化技术详解,以及 vLLM、TGI、TensorRT-LLM 等推理框架的工程取舍
  3. AI 成本优化 Token 成本拆解、Prompt 优化、缓存策略、模型路由、Cascade 模式、自托管 vs API 成本分析,以及预算监控与告警
  4. 模型选型策略 2026 年模型 landscape、评估维度、能力矩阵、场景映射、开源 vs 闭源、多模型策略,以及如何规避 vendor lock-in
  5. AI 评估体系 为什么评估是 AI 工程最被低估的环节。Benchmark、离线评估、在线评估、LLM-as-judge、评估流水线与持续监控
  6. AI 系统监控 AI 可观测性与传统 APM 的差异。Trace、指标、评估三支柱,关键指标定义,日志最佳实践,以及 LangSmith、Langfuse 等工具
  7. Prompt 版本管理 Prompt 即代码:版本控制、测试、A/B、Registry、模板化。Prompt 生命周期与团队协作,以及 Humanloop、LangSmith Hub 等工具
  8. AI 安全与防护 AI 专属安全威胁:Prompt Injection、数据泄露、内容安全。防御策略、Guardrails、访问控制与 Red Teaming
  9. Eval Harness 实战:从工具到自建评估体系 用漏斗式视角理解 Eval Harness:工具选型、lm-eval 与 promptfoo 实战、自建四支柱、Flaky Eval 处理,以及与 Agent Harness 的关系。
  10. Agent Benchmark 2026 H1 综合横评:SWE-bench / OSWorld / WebArena / SWE-Lancer 横评 2026 H1 主流 Agent benchmark,包括 SWE-bench、OSWorld、WebArena、SWE-Lancer 与 GDPval,分析它们各自测什么、不测什么,以及刷榜见顶后的评估方向。
  11. Agent Runtime:为什么下一代 AI 产品像一个小操作系统 从 Responses API、Agents SDK、MCP、Computer Use、WebSocket agent loop 和 Claude Agent SDK 出发,梳理 Agent Runtime 为什么会成为 AI 产品的核心底座,以及团队该怎样设计状态、工具、权限、沙箱、评测和可观测性。
  12. Agent 安全与权限模型:别把防线只写在 prompt 里 结合 2026 年 prompt injection、防工具滥用、MCP 与 Computer Use 的新风险,梳理 Agent 产品应该怎样设计权限、确认、沙箱、审计、数据流隔离和安全评测。
  13. Real-World Evals:为什么 GDPval 比刷榜更值得看 从 GDPval、SWE-bench Verified、BrowseComp 和私有评测出发,说明 2026 年 AI Agent 评估为什么要从公开榜单转向真实交付物、业务闭环和可复现评测。
  14. 模型路由 2026:不要把所有任务都交给同一个模型 结合 GPT-5.5、Claude、Gemini、开源模型、OpenRouter 与私有评测,梳理 2026 年为什么 AI 产品需要模型路由,以及怎样按任务风险、成本、延迟和能力做自动切换。
  15. AI Engineer 知识地图 2026:从基础设施工程师到 AI Builder 基于 AI Engineer Knowledge Map 2026 这张能力地图,重新整理现代 AI Engineer 的知识结构:基础设施、数据、LLM、推理、RAG、Agent、安全、评测、FinOps 与业务理解。
  16. AI Control:把自主 Agent 当作内部威胁来设计 结合 2026 年 6 月 Google DeepMind AI Control Roadmap 的公开报道、International AI Safety Report、AI Agent Index 与 agent containment 研究,整理为什么高自治 Agent 不能只靠 alignment,还要按内部威胁模型设计监控、隔离、审计和降级。
  17. AI Cyber Defense 2026:当模型开始批量找漏洞,防守方怎么重写安全流程 结合 2026 年 6 月 OpenAI 网络安全项目报道、Five Eyes 对 frontier AI cyber 风险的警告,以及 AgentCyberRange 等新评测,梳理 AI 进入漏洞发现、补丁生成、开源维护和安全运营后,企业安全流程该怎样改。
Stage 06 5 notes

Part 06 · AI 编程与 Claude Code

理解 coding agent、prompt caching、skills 与 spec-driven workflow 怎样改变软件开发。

  1. AI Coding Agent 全景 从 Copilot 到自主 Agent 的跃迁;Cursor、Devin、Windsurf、OpenHands、SWE-agent、Aider、Claude Code 对比;SWE-bench、架构循环与 Agent-Native 工作流
  2. Vibe Coding 与 Spec-Driven Development:2026 Q2 软件开发的两条新文化线 讨论 2026 Q2 软件开发的两条文化线:自然语言驱动的 vibe coding 与大公司推崇的 spec-driven development,以及团队该如何在速度和可维护性之间取舍。
  3. Claude Code 构建经验:为什么 Prompt Caching 是 Agent 的地基 基于 Claude Code 团队关于 prompt caching 的工程经验,拆解长任务 Agent 为什么必须围绕缓存来设计:静态前缀、工具集合、模型切换、compaction 和缓存命中率监控。
  4. Claude Code 构建经验:像 Agent 一样设计工具 基于 Claude Code 团队的工具设计经验,讨论 Agent harness 里最难的一件事:不是工具越多越好,而是给模型一个它真的会理解、会使用、会自我校正的行动空间。
  5. Claude Code 构建经验:Skills 不是 Markdown,而是能力包 基于 Claude Code 团队关于 Skills 的实践经验,梳理什么样的 skill 值得做、如何写出高信号密度的 skill、如何用文件系统和脚本做渐进披露,以及团队如何分发和衡量 skill。
Stage 07 13 notes

Part 07 · 前沿模型与新交互

追踪多模态、视频生成、AI 浏览器、世界模型、机器人与 AI for Science 的工程化信号。

  1. 新一代模型 MoE、Reasoning Models、SSM、多模态原生——2026 年模型架构与前沿趋势全解析
  2. Multimodal AI 从文本到视觉、音频、视频,梳理多模态 AI 的技术架构、训练思路、应用场景、产品机会与工程落地挑战。
  3. LLM Agents 研究前沿 ReAct、Reflexion、Voyager、CAMEL——Agent 学术研究的关键论文、Benchmark 与未来方向
  4. AI 系统未来形态 从 AGI 时间线、基础设施演进、产业变化、社会影响到监管格局,多维度展望 AI 的中长期发展方向。
  5. Computer Use Agents:让模型直接操作你的电脑 拆解 Computer Use Agent 如何用截图、视觉理解、鼠标键盘动作直接操作软件,对比 Function Calling Agent,并梳理 OSWorld、Claude、Operator 与 Manus 的工程取舍。
  6. Diffusion LLM:当语言模型不再一个 token 一个 token 写 Mercury 2 在 2026 年 2 月把扩散语言模型推到 1000+ tokens/秒,成为第一个商用产线级的非自回归 LLM。LLaDA 也证明了 8B 扩散模型可以追上 LLaMA3 8B。本文拆解扩散 LLM 的工作原理、它和自回归 LLM 的根本区别、能用在哪、不能用在哪,以及它会不会颠覆 Transformer。
  7. Voice AI 与实时语音 Agent:从拼装管线到可部署系统 实时语音 Agent 这条线已经从 ASR + LLM + TTS 的拼装方案,走向更完整的语音到语音系统。本文梳理其架构变化、工程难点、适用场景,以及它和 Computer Use / Hermes Agent 的关系。
  8. Video Generation 2026 H1:Sora 2 API / Veo 3.1 / Runway / Luma 视频生成到 2026 H1 已经跨过“只能看 demo”的阶段,但平台可用性变化很快:OpenAI Sora Web/App 已于 2026-04-26 停用,Sora 2 仍应按模型/API 能力而非消费级工作流来评估。本文梳理 Sora 2、Veo 3.1、Runway、Luma 的能力边界、适用场景、评估方法和现实限制。
  9. 开源 LLM 2026 H1 格局:从「追赶」到「分轨竞争」 2026 H1 是开放权重 / 开源 LLM 第一次在多个赛道逼近 frontier 闭源模型的半年。Llama 4、DeepSeek、Qwen、GLM、Gemma 等模型在 reasoning、coding、Agent、小型本地等维度形成分轨竞争。本文按六条赛道梳理现状,给出选型决策树与本地部署成本参考。
  10. AI for Science 2026 H1:AlphaFold 3、药物设计引擎与科学 Agent 梳理 2026 H1 AI for Science 三条主线:AlphaFold 3 与药物发现、材料生成模型、科学 Agent,讨论它们进入科研工作流后的机会和边界。
  11. World Models 2026 H1:Genie 3 / Project Genie 把「可交互的世界」推进生产线 拆解 World Models 在 2026 H1 的进展,重点看 Genie 3、Project Genie 与可交互世界生成,解释它和视频生成、Robotics、Agent、游戏之间的关系。
  12. AI-Native 浏览器 2026 H1:Comet / ChatGPT Atlas / Dia 三家如何重做 Web Perplexity Comet 已扩展到桌面和移动端,OpenAI ChatGPT Atlas、The Browser Company Dia 等产品也在重做浏览器入口。和「Chrome + 插件 + ChatGPT 标签页」不是一回事——AI-native browser 把 LLM 当一等公民,URL 退到次位。本文是这条新赛道的产品与功能切片。
  13. Embodied AI 与机器人:从会说话的模型到会动手的系统 结合 Gemini Robotics 1.5、V-JEPA 2、world model、Computer Use 和机器人基础模型,梳理 2026 年 Embodied AI 为什么值得记录,以及它离真正通用家用机器人还有多远。
Stage 08 11 notes

Part 08 · 知识系统与 AI 原生创业

把文档、知识库、DocOps 和创业方法论连起来,形成可复用的个人与团队知识资产。

  1. LLM Wiki 入门:为什么它不是 RAG,也不是普通笔记软件 从 Karpathy 的 LLM Wiki 模式出发,理解一种新的个人知识库做法:人负责选资料和提问题,LLM Agent 负责整理、交叉引用、更新和维护 Wiki。
  2. LLM Wiki 目录结构:从空文件夹搭出可维护的知识库 手把手搭建 LLM Wiki 的第一版目录结构,讲清 raw、wiki、index、log、AGENTS.md 分别放什么,以及为什么一开始不要把结构设计得太复杂。
  3. 写好 AGENTS.md:让 LLM 像知识库维护者一样工作 LLM Wiki 最关键的一篇:完整讲解 AGENTS.md 应该写什么,包括目录规则、页面模板、ingest、query、lint、引用、冲突处理和安全边界。
  4. Ingest 教程:把一篇文章变成一组互相连接的 Wiki 页面 LLM Wiki 的第一个核心操作:如何把 raw 里的原始资料吸收到 wiki 里,生成 source summary、concept page、question page、synthesis,并更新 index 和 log。
  5. Query 教程:如何向自己的 LLM Wiki 提问,并把好答案写回去 LLM Wiki 的第二个核心操作:基于 index 和 wiki 页面提问,生成带依据的回答,并把有长期价值的比较、综述、问题和结论沉淀回知识库。
  6. Lint 教程:让 Agent 定期体检你的 LLM Wiki LLM Wiki 的第三个核心操作:检查孤岛页面、重复概念、缺引用、过时结论、冲突说法和 index/log 漏更新,让知识库越长越清楚。
  7. Obsidian 实战:把 LLM Wiki 变成可浏览的第二大脑 如何用 Obsidian 承载 LLM Wiki:双链、Graph View、Web Clipper、附件、本地图片、Dataview 和 Marp,重点是让人能浏览,让 Agent 能维护。
  8. Git 工作流:把你的 LLM Wiki 当代码库维护 LLM Wiki 是一堆 Markdown 文件,天然适合 Git。本文讲 commit、diff、branch、rollback、review 和 Agent 修改报告,让知识库可回滚、可审查、可长期维护。
  9. 搜索层:当 index.md 不够用时,怎么给 LLM Wiki 加检索 LLM Wiki 一开始不需要向量数据库。本文讲从 index.md、ripgrep、Obsidian 搜索到 BM25 / vector / qmd 的渐进路线,以及什么时候该加搜索。
  10. 完整项目:用 LLM Wiki 从 0 到 1 学一个新领域 LLM Wiki 系列收官项目:选一个主题,收集 20 篇资料,完成 ingest、query、lint、Obsidian 浏览、Git 管理和搜索升级,最终形成一个可长期维护的知识库。
  11. AI 原生创业:别急着做产品,先重写公司的做事方式 基于 The founder's playbook: Building an AI-native startup 的读后整理。AI 原生创业不是给产品加一个模型,而是把问题验证、产品构建、销售交付和组织协作都按新杠杆重新设计。