LLM Wiki 入门:为什么它不是 RAG,也不是普通笔记软件
从 Karpathy 的 LLM Wiki 模式出发,理解一种新的个人知识库做法:人负责选资料和提问题,LLM Agent 负责整理、交叉引用、更新和维护 Wiki。
93 entries
从 Karpathy 的 LLM Wiki 模式出发,理解一种新的个人知识库做法:人负责选资料和提问题,LLM Agent 负责整理、交叉引用、更新和维护 Wiki。
LLM Wiki 的第一个核心操作:如何把 raw 里的原始资料吸收到 wiki 里,生成 source summary、concept page、question page、synthesis,并更新 index 和 log。
LLM Wiki 最关键的一篇:完整讲解 AGENTS.md 应该写什么,包括目录规则、页面模板、ingest、query、lint、引用、冲突处理和安全边界。
LLM Wiki 的第三个核心操作:检查孤岛页面、重复概念、缺引用、过时结论、冲突说法和 index/log 漏更新,让知识库越长越清楚。
如何用 Obsidian 承载 LLM Wiki:双链、Graph View、Web Clipper、附件、本地图片、Dataview 和 Marp,重点是让人能浏览,让 Agent 能维护。
LLM Wiki 的第二个核心操作:基于 index 和 wiki 页面提问,生成带依据的回答,并把有长期价值的比较、综述、问题和结论沉淀回知识库。
手把手搭建 LLM Wiki 的第一版目录结构,讲清 raw、wiki、index、log、AGENTS.md 分别放什么,以及为什么一开始不要把结构设计得太复杂。
LLM Wiki 是一堆 Markdown 文件,天然适合 Git。本文讲 commit、diff、branch、rollback、review 和 Agent 修改报告,让知识库可回滚、可审查、可长期维护。
LLM Wiki 一开始不需要向量数据库。本文讲从 index.md、ripgrep、Obsidian 搜索到 BM25 / vector / qmd 的渐进路线,以及什么时候该加搜索。
LLM Wiki 系列收官项目:选一个主题,收集 20 篇资料,完成 ingest、query、lint、Obsidian 浏览、Git 管理和搜索升级,最终形成一个可长期维护的知识库。
Perplexity Comet 在 2026-03-18 上线 iOS 后冲到 App Store #3、转免费策略带火了「AI-native browser」这个赛道。OpenAI ChatGPT Atlas、The Browser Company Dia 同期出现。和「Chrome + 插件 + ChatGPT 标签页」不是一回事——AI-native browser 把 LLM 当一等公民,URL 退到次位。本文是这条新赛道当下事实切片。
2024 年底 AlphaFold 3 (DeepMind + Isomorphic Labs) 把蛋白 / DNA / RNA / 小分子统一成一个 diffusion network 来预测所有原子级交互;2026-02 Isomorphic Labs 又推出 IsoDDE(Drug Design Engine)把 AF3 在 protein-ligand 上准确率翻倍,被业界称作 'AlphaFold 4'。本文是 H1 AI for Science 当下事实切片:药物发现、材料发现、Agent for Science 三条主线。
Genie 3 (DeepMind, 2025-08) 不是另一个文生视频模型——它生成的是用户可以实时走进去、改变、互动的「世界」。2026-01 Project Genie 在 Google AI Ultra (US) 上线,让普通用户能把它当工具用。本文梳理 World Model 是什么、和视频生成的本质区别、当前能 / 不能做的事,以及它和 Robotics / Agent / 游戏之间的关系。
2026 H1 是开源 LLM 第一次集体把 frontier 闭源逼出明显差异化窗口的半年。Llama 4 / DeepSeek-R1 / Qwen3.5 / Hermes 4.3 / Mistral Magistral 在不同维度做到 SOTA 接近或反超闭源。本文按「frontier 反超 / 推理 / 编程 / Agent / 多模态 / 小型本地」六轨梳理开源现状,给出选型决策树与本地部署成本参考。
Google A2A 在 2025-04-09 发布、6-23 捐给 Linux Foundation、2026-03 出 v1.0、2026-04 一周年时支持组织数已破 150。MCP 解决 Agent ↔ Tool,A2A 解决 Agent ↔ Agent,两者已不是「未来」,是 H1 实质生产部署的一对协议。本文是去掉「还在草案」过度保守判断后的当下事实。
Karpathy 在 2025 年 2 月造的「vibe coding」一词,到 2026 Q2 已经从 meme 变成生产现实——一群人不读代码、只看效果,用自然语言驱动 Agent 写完整产品。同时另一极方向「spec-driven development」也在大公司里成型——把规约(spec)作为代码之上更稳定的事实源。两条看似相反的文化线,正在重新定义软件团队的工作方式。
2026 H1 是 Agent benchmark 第一次「全员逼近天花板」的半年。SWE-bench Verified 80%+ 已不再稀奇、OSWorld 突破人类基线、WebArena 超过 70%。本文横向梳理主流 Agent benchmark 当前状态、它们各自测什么 / 不测什么、刷榜 ROI 见底之后,下一阶段该看哪些新 benchmark。
视频生成到 2026 H1 已经跨过“只能看 demo”的阶段。本文梳理 Sora 2、Veo 3.1、Runway、Luma 的能力边界、适用场景、评估方法和现实限制。
实时语音 Agent 这条线已经从 ASR + LLM + TTS 的拼装方案,走向更完整的语音到语音系统。本文梳理其架构变化、工程难点、适用场景,以及它和 Computer Use / Hermes Agent 的关系。
MCP(Model Context Protocol)从 Anthropic 2024 年 11 月发布到 2026 年 Q2,已成为 Agent 工具协议的事实标准。本文梳理它在主流主机(Claude / Cursor / OpenAI / Gemini / Hermes Agent)里的实现现状、OAuth 2.1 PKCE 与权限模型、第三方 server 的可信度评估、企业部署里那些必须解决的问题,以及它和 OpenAI Plugins、Function Calling、Function Tool 之间的关系。
Mercury 2 在 2026 年 2 月把扩散语言模型推到 1000+ tokens/秒,成为第一个商用产线级的非自回归 LLM。LLaDA 也证明了 8B 扩散模型可以追上 LLaMA3 8B。本文拆解扩散 LLM 的工作原理、它和自回归 LLM 的根本区别、能用在哪、不能用在哪,以及它会不会颠覆 Transformer。
2025 末到 2026 年第一季度,Claude Computer Use、OpenAI Operator、Manus Desktop 接连进入生产可用状态。这一类 Agent 不调 API、不用 SDK,直接用截屏 + 鼠标键盘和真实软件交互。本文拆解它的工作原理、OSWorld benchmark 现状、三家产品差异,以及为什么它和传统 Tool Calling Agent 是两种不同物种。
Nous Research 在 2026 年 2 月开源的 Hermes Agent 不到两个月就拿到接近十万 stars。它不是又一个 ReAct 包装器,而是一个把 skills、记忆、网关、模型路由全部塞进同一个进程的「常驻 Agent」。本文拆解它的架构、闭环学习机制,以及它为什么是 2026 上半年最值得关注的开源 Agent 项目。
2025–2026 最热概念:不只写好 prompt,而是系统编排进入模型的信息——组件、budget、质量与评估一次讲清
梳理 Chain-of-Thought 的演进:Zero-shot / Few-shot、结构化 CoT、ToT / GoT、推理模型内化,以及反直觉坑与实战选型。
跨会话记忆的三层架构、Letta/MemGPT 实战、Mem0 与 Zep 对比、图谱与向量混合、Memory as a Service 与隐私合规
验证链、Critic Agent、形式化与事实性验证、Constitutional AI、Guardrail 与成本权衡——从「好用」到「可信」
从 Copilot 到自主 Agent 的跃迁;Cursor、Devin、Windsurf、OpenHands、SWE-agent、Aider、Claude Code 对比;SWE-bench、架构循环与 Agent-Native 工作流
用漏斗式视角理解 Eval Harness:工具选型、lm-eval 与 promptfoo 实战、自建四支柱、Flaky Eval 处理,以及与 Agent Harness 的关系。
MoE、Reasoning Models、SSM、多模态原生——2026 年模型架构与前沿趋势全解析
从文本到视觉、音频、视频——多模态 AI 的技术架构、应用场景与挑战
ReAct、Reflexion、Voyager、CAMEL——Agent 学术研究的关键论文、Benchmark 与未来方向
从 AGI 时间线到基础设施演进,从社会影响到监管格局——AI 未来的多维度展望
从定位、架构到边界,理解 GitHub 热门开源个人 AI 助手 OpenClaw
从安装到发送第一条消息,OpenClaw 快速上手指南
深入理解 OpenClaw 的 Gateway、Pi Agent、WebSocket 与会话模型
WhatsApp、Telegram、Slack、Discord 等 20+ 消息频道的配置与路由
Agent Runtime、Workspace、Skills、ClawHub 与聊天命令详解
Browser Control、Canvas、Nodes、Cron、Webhooks、Voice 与媒体管道
Docker、Podman、Remote Gateway、Tailscale、Nix 与云部署完整指南
DM Pairing、Sandbox、openclaw doctor 与生产部署安全清单
mcporter 桥接、Plugin API、Memory 插件,以及 Skills / Plugins / MCP 的边界与选型
个人助理、开发、团队协作、家居自动化、内容创作与常用模式
贡献指南、Vision 优先级、不会合并的边界与长期方向
从对话式 UI 到信任设计,掌握 AI 产品交互的核心模式与反模式
Copilot、Agent、Automation 三大模式详解,以及如何为产品选择与演进
数据飞轮、网络效应、病毒传播——AI 产品的独特增长逻辑与实战案例
从定价模型到单位经济,系统理解 AI 产品的商业化挑战与可持续路径
当向量检索遇到知识图谱:用实体、关系与图遍历,补足纯向量 RAG 在多跳推理上的天然短板
百万 token 上下文来了,RAG 还有必要吗?答案不是替代,而是分工:长上下文解决“能看多长”,RAG 解决“该看什么”
超越纯文本:当知识存在于 PDF、表格、图表、扫描件和图片中,多模态 RAG 如何重建检索与理解链路
RAG 好不好,不能只看答案像不像对:从检索、忠实度、引用、线上反馈到回归测试,建立一套真正能指导迭代的评测框架
从 Demo 到 Production:可靠性、可扩展性、可观测性与成本控制
从定义、与 Chatbot 的差异、核心能力到真实案例,理解 AI Agent 的本质与边界
Reasoning + Acting 如何交织、ReAct 循环的运作方式、优势与局限,以及实践中的实现要点
先规划再执行的两阶段架构、Replanning 机制、与 ReAct 的对比,以及 LangGraph 等实现方式
Planner、Executor、Memory、Tools 四大支柱如何协同,以及 Agent 循环与架构模式
多 Agent 协作的通信模式、角色分工、编排策略,以及 CrewAI、AutoGen 等框架与实战考量
为什么 Agent 需要记忆、五种记忆类型、MemGPT 虚拟内存、以及实现策略
让 Agent 越用越好的愿景、技能库、Prompt 进化、人机反馈循环与当前局限
用图结构构建有状态的多步骤 Agent 工作流 —— LangGraph 核心概念、设计模式与实战
点燃 Agent 革命的先驱、架构与局限、遗产与教训、自主性谱系
基于角色协作的多 Agent 框架 —— 核心概念、工作流设计、Flows 演进与实战对比
从单 Agent 到端到端流程、文档/代码/数据/客服工作流、编排工具与监控
AI 系统与传统软件的本质差异、分层架构设计、微服务 vs 单体、核心组件选型,以及从 MVP 到企业级的部署演进
推理延迟与成本是 AI 应用的两大痛点。Batching、KV Cache、量化、Speculative Decoding 等优化技术详解,以及 vLLM、TGI、TensorRT-LLM 等推理框架的工程取舍
Token 成本拆解、Prompt 优化、缓存策略、模型路由、Cascade 模式、自托管 vs API 成本分析,以及预算监控与告警
2026 年模型 landscape、评估维度、能力矩阵、场景映射、开源 vs 闭源、多模型策略,以及如何规避 vendor lock-in
为什么评估是 AI 工程最被低估的环节。Benchmark、离线评估、在线评估、LLM-as-judge、评估流水线与持续监控
AI 可观测性与传统 APM 的差异。Trace、指标、评估三支柱,关键指标定义,日志最佳实践,以及 LangSmith、Langfuse 等工具
AI 专属安全威胁:Prompt Injection、数据泄露、内容安全。防御策略、Guardrails、访问控制与 Red Teaming
从 AI-first 思维到用户价值框架,系统掌握 AI 产品设计的核心方法论
让模型自己决定何时检索、如何评估检索质量,突破传统 RAG 的固定检索模式
当 LLM 开始主导检索流程:从固定管道到动态决策,理解 Agentic RAG 的能力、代价与工程边界
Bi-encoder 与 Cross-encoder 的取舍,两阶段检索模式,以及 Rerank 在 RAG 中的实战价值
Chunking 是 RAG 的基础:切太大引入噪声,切太小丢失上下文。本文详解各类切分策略与最佳实践
从知识截止、幻觉和私有数据三大痛点出发,理解 Retrieval-Augmented Generation 的本质与价值
从 Query 到 Response 的完整 RAG 流水线,以及索引与查询两条主线的设计要点
为什么需要向量数据库、ANN 算法原理、主流产品对比,以及何时用专用向量 DB 何时用 pgvector
从文本到向量:Embedding 如何将语义编码成数字,以及 Cosine Similarity、主流模型与实战应用
Context Window 如何工作、对话记忆如何维护、RAG 如何扩展知识边界——LLM 记忆全景图
角色设定、Few-shot、指令设计、Chain-of-Thought——从零到写出高质量 Prompt 的完整指南
为什么 LLM 需要工具、Function Calling 与 Tool Use 的区别、MCP 协议,以及如何安全地让模型调用外部能力
从前端到模型层:AI 应用典型技术栈、各层职责、Orchestration 层详解,以及如何根据场景选架构
结构化输出、模板管理、多轮设计、分层 System Prompt——生产级 Prompt 架构实战
综合 Prompt、RAG、Tool Calling,手把手搭建一个可运行的 AI 助手:系统设计、技术栈、代码结构、常见坑
预训练、微调、RLHF、推理模型——从 Base Model 到 ChatGPT 的完整训练链路
Sparse、Dense、Hybrid 检索,多阶段检索架构、Query 变换与评估调优实践
Agent 如何通过自我评估与修正提升输出、Reflexion 模式、实现方式与适用场景
Prompt 即代码:版本控制、测试、A/B、Registry、模板化。Prompt 生命周期与团队协作,以及 Humanloop、LangSmith Hub 等工具
macOS App、iOS Node、Android Node 与 Gateway 协议详解
从 Transformer 架构、Attention 机制、Token 预测到 Scaling Law,拆解 LLM 的底层运作逻辑
30+ AI 核心术语,一篇全搞定。不讲废话,每个词给你一句人话 + 原理 + 真实案例。读完你就能看懂大多数 AI 讨论。