AI 黑话通关手册

30+ AI 核心术语,一篇全搞定。不讲废话,每个词给你一句人话 + 原理 + 真实案例。读完你就能看懂大多数 AI 讨论。

20 min read Part of AI Foundation · Ch. 1
← 上一层级:学习路径 · Part 01 · AI 基础概念

AI 黑话通关手册

flowchart LR
  A["AI 黑话通关手册"]
  A --> B["分类:基础概念"]
  A --> C["关键词:AI"]
  A --> D["关键词:LLM"]
  A --> E["关键词:入门"]
  A --> F["关键词:术语"]

你有没有这种经历:听别人聊 AI,满嘴 Token、RAG、Agent、RLHF、MCP……你表面点头,内心只剩一句:“这人在说什么?”

这篇文章就是你的解药。


这篇文章能给你什么

AI 圈最擅长两件事:

  1. 造新能力
  2. 造新黑话

但说到底,今天大多数生成式 AI 的底层逻辑其实没那么玄:

把文字切碎 → 变成数字 → 根据上下文预测下一个最可能出现的 token。

你可以把这篇文章当成一份“AI 术语地图”。
它不会把每个词都讲成论文,但会帮你快速建立三个东西:

  • 直觉:这个词到底在说什么
  • 边界:它跟相近概念有什么区别
  • 应用感:它在真实产品和工程里有什么用

全文分成 7 个区,每个术语尽量给你三层理解:

  • 一句人话
  • 原理速通
  • 真实场景 / 类比

如果你是 AI 新手,这篇够你入门;
如果你已经在刷 AI 新闻,这篇能帮你把零散概念串成体系。


一张图看懂 AI 黑话地图

                    你说了一句话

                    ┌───▼───┐
                    │ Token │  ← 文本切成模型能吃的碎片
                    └───┬───┘

                 ┌──────▼──────┐
                 │ Embedding   │  ← 变成一串数字(向量)
                 └──────┬──────┘

              ┌─────────▼─────────┐
              │   LLM / Model     │  ← 超级接龙机器开始预测
              │  (Transformer)    │
              └─────────┬─────────┘

           ┌────────────▼────────────┐
           │ Temperature / Top-P     │  ← 控制回答更稳还是更放飞
           └────────────┬────────────┘

        ┌───────────────▼────────────────┐
        │  需要外部知识?需要执行动作?    │
        │    ↓ RAG           ↓ Tool      │
        │  去知识库查      调天气/搜索/API │
        └───────────────┬────────────────┘

                   ┌────▼────┐
                   │  输出!  │  ← 但可能有幻觉
                   └─────────┘

看不懂没关系。下面我们从最核心的 5 个词开始,一层层拆。


第一区:核心概念(先搞懂这 5 个,后面全通)

1. LLM(Large Language Model / 大语言模型)

一句人话:一个在海量文本上训练出来的“超级接龙机器”。你给它开头,它预测后面最可能接什么。

原理速通: LLM 的训练目标通常不是“理解世界”,而是“根据前文预测下一个 token”。但因为它见过的语言模式太多,这种“预测下一个 token”的能力,会涌现出问答、总结、翻译、写代码、对话等各种能力。

一个很有用的类比: 想象一个没亲身经历过现实世界、但读过无数书和网页的人。它不一定真的“懂”,但见过的表达、知识和模式太多,所以大多数时候能说得像懂。

截至 2026 年 3 月,一些公开可见的主流模型家族包括

  • OpenAI 的 GPT-5 系列(gpt-5 / gpt-5-mini / gpt-5-nano)以及 GPT-4.1 系列;GPT-5 面向开发者提供 reasoning_effortverbosity 等参数,GPT-4.1 系列支持最高 100 万 token 上下文。(OpenAI)
  • Anthropic 的 Claude Sonnet 4.5,可通过 API 使用,官方强调其在编码、长任务和 computer use 方面的提升。(Anthropic)
  • Google 的 Gemini 2.5 Pro,官方将其描述为面向代码、数学、STEM 和长上下文分析的“thinking model”,输入上限约 1,048,576 token。(Google AI for Developers)

你真正该记住的不是型号,而是

LLM 是今天几乎所有生成式 AI 产品的底层引擎。


2. Token(令牌)

一句人话:AI 不直接“看字”,它先把文本切成很多小块,每块就是一个 token。

原理速通: 模型处理文本时,不会把整句话当成一个整体,而是先做分词 / 切片。这个切出来的最小工作单位,就是 token。 在英文里,一个 token 可能是一个单词、一部分单词,甚至一个标点;在中文里,一个汉字常常就是一个 token,但也不是绝对一一对应。

为什么你必须关心它

  1. Token = 成本 大多数模型 API 按 token 计费。OpenAI 当前公开定价中,GPT-4o 的输入价格是每百万 token 2.50 美元,输出价格是每百万 token 10 美元。(OpenAI开发者)

  2. Token = 上限 模型不是无限吃文本的。它一次最多只能处理一个上下文窗口里的 token 数量。

  3. Token ≠ 字符 ≠ 单词 同样长度的中文、英文、代码,token 消耗往往不一样。

一个实用直觉

  • 英文里,1 token 往往接近几字符或一个词的一部分
  • 中文里,很多时候一个汉字接近一个 token
  • 代码、JSON、表格通常更“吃 token”

所以你以后看到“这个 prompt 很贵”时,别问“多少字”,先问:

多少 token?


3. Context Window(上下文窗口)

一句人话:模型一次“能同时看到多少内容”的上限。

类比: 把模型想象成坐在桌前看资料的人。 桌面越大,它一次能摊开的资料就越多。 桌子外面的纸,不是永久消失了,而是这次推理里它看不到

为什么这件事重要

  • 你塞给模型的 system prompt、历史消息、RAG 检索结果、用户输入,全部都在抢同一个窗口
  • 窗口不够大,就必须删、截断、摘要
  • 窗口再大,也不代表模型一定“记得住”中间的所有内容

几个公开可见的例子

  • GPT-4.1 系列官方支持最高 100 万 token 上下文。(OpenAI)
  • Gemini 2.5 Pro 官方页面给出的输入 token 上限约为 1,048,576。(Google AI for Developers)

但有个特别容易误解的点

上下文窗口大,不等于模型记忆力就完美。

把一条关键信息埋在几十万 token 的中间位置,模型依然可能利用不好。这也是为什么长上下文没有让 RAG 过时: 长上下文解决“能塞多少”,RAG 解决“该塞什么”。


4. Prompt(提示词)

一句人话:你给模型的输入指令。

原理速通: Prompt 不只是“你问的问题”,还可能包括:

  • System Prompt:角色设定、规则、边界
  • User Message:用户这轮输入
  • 历史消息:前面的对话
  • Few-shot 示例:几个输入输出样例
  • 检索结果:RAG 找回来的资料
  • 工具结果:例如搜索、天气、数据库查询返回值

所以现代 Prompt 往往不是一句话,而是一个被精心组织的上下文包

为什么同一个模型,Prompt 不同,效果差很多

因为模型本质上是“条件生成系统”—— 你给它什么上下文,它就沿着那个上下文去预测。 Prompt 模糊,输出就容易漂;Prompt 清楚,输出就更可控。

一个直观例子

弱 prompt:

写点东西介绍我们的产品。

强 prompt:

你是 B2B SaaS 产品营销经理。请面向企业采购负责人,写一段 150 字以内的产品介绍。
要求:
1. 强调“部署快、权限管理、审计日志”
2. 不要使用夸张营销词
3. 结尾给一个明确 CTA

后者不是“模型更聪明”,而是输入更清楚


5. Hallucination(幻觉)

一句人话:模型一本正经地说错话,甚至编造事实。

原理速通: 模型的目标通常是“生成最可能出现的下一个 token”,不是“保证真实”。 所以当它不知道答案、资料不足、或者上下文冲突时,它依然倾向于输出一个“看起来像答案”的内容。

典型表现

  • 编不存在的论文、案例、API
  • 把模糊信息补成特别具体的细节
  • 推理过程很长,但结论还是错
  • 引用一个看似合理但并不存在的来源

一个非常重要的边界

幻觉不等于胡言乱语。

真正危险的幻觉,往往恰恰是:

  • 语气自然
  • 格式专业
  • 细节丰富
  • 听起来特别像真的

这也是为什么高风险场景不能只靠模型“说得像真的”。

常见缓解方法

  • RAG:让它先查资料
  • Grounding:强制带来源
  • Tool Calling:把可验证的计算 / 查询交给工具
  • Guardrails:对输入输出做安全和事实约束
  • 人工审核:医疗、法律、金融等场景尤其重要

第二区:模型为什么会“像会思考一样工作”

6. Transformer

一句人话:今天几乎所有主流大模型的底层架构。

为什么它重要: 如果没有 Transformer,今天的 GPT、Claude、Gemini、Llama 这一代模型基本不会以现在的样子存在。

最核心的变化: Transformer 把“语言建模”从老式的顺序传递,变成了基于 attention 的全局建模。 简单说,就是模型在处理一句话时,不再只能一个词一个词慢慢往后传,而是能更直接地建模词与词之间的关系。

你不需要记住矩阵公式,但要记住一件事

Transformer 是大模型时代的底盘。


7. Attention(注意力机制)

一句人话:模型在当前这一步,决定“应该重点看哪些词、哪些位置”。

类比: 你读一段文字时,不会每次都平均看所有词。 看到“它指的是谁”,你会回头找前文主语; 看到“因此”,你会去找前面的因果关系。 Attention 做的就是类似的事情,只不过它是数学化、可训练的。

为什么它重要

  • 让模型更好处理长距离依赖
  • 让一个 token 能“参考”上下文里其他 token
  • 是 Transformer 能成立的关键之一

一句抓重点的话

Attention 不是“记忆”,而是“当前这一步该关注什么”。


8. Pre-training(预训练)

一句人话:把海量文本喂给模型,让它学会语言模式和世界知识的基础阶段。

原理速通: 预训练的核心任务通常很朴素: 给你一段前文,预测下一个 token。

这件事看起来简单,但当数据足够大、模型足够大时,模型会逐渐学会:

  • 语言规律
  • 常识知识
  • 基础代码模式
  • 一些推理与归纳能力

可以这样理解

  • 预训练 = 打底子
  • 它决定模型“会不会说、懂不懂常见模式”
  • 但它不直接决定模型是否“好用、听话、安全”

这也是为什么光有 Base Model,通常还不够。


9. Fine-tuning(微调)

一句人话:在预训练模型基础上,再用特定数据继续训练,让它更适合某种任务或风格。

你可以把它理解成

  • 预训练 = 通识教育
  • 微调 = 岗前培训

微调常见用途

  • 学某种专业风格
  • 固化某类输出格式
  • 适应领域术语
  • 在小模型上提升某类任务表现

要注意的一点

微调更适合改“行为模式”和“风格偏好”,不太适合频繁更新的事实知识。

如果知识每周都变,通常更适合 RAG,而不是反复重训。


10. RLHF(Reinforcement Learning from Human Feedback)

一句人话:让人类或偏好信号来教模型“什么样的回答更好”。

为什么需要它: 一个只做预训练的模型,可能会:

  • 接龙式回答
  • 不按指令来
  • 风格不稳
  • 安全性差
  • 拒答和乱答都很多

RLHF 这类对齐训练的目标,就是让模型更像一个“能用的助手”,而不只是一个会续写文本的机器。

粗略流程

  1. 给同一问题生成多个回答
  2. 让人类或偏好系统排序
  3. 用这些排序信号训练奖励或偏好优化过程
  4. 让模型更倾向输出人类更满意的回答

一句抓重点的话

预训练让模型“会说话”,RLHF 让模型“更像你想用的助手”。


11. Alignment(对齐)

一句人话:让模型的行为尽量符合人类期望、产品规则和安全边界。

为什么它是个大词: 因为“好模型”不只是能力强,还得:

  • 能遵循意图
  • 避免危险输出
  • 在不确定时别装懂
  • 不要轻易越权

这背后都属于 Alignment 的范畴。

它最容易被误解的地方

很多人把 alignment 理解成“政治正确”或“内容审查”。 其实更广义地说,它是:

如何让模型在能力、可用性、安全性之间取得平衡。

对齐过松,模型容易胡来; 对齐过紧,正常问题也可能被拒答。


12. Scaling Law(规模定律)

一句人话:模型参数、数据量、训练算力增加时,能力通常会按某种规律持续提升。

为什么这个词重要: 因为它解释了过去几年大模型为什么会越来越强: 不是某个神秘算法突然出现,而是很多能力在“更大模型 + 更多数据 + 更多算力”下持续增长。

但要注意

规模定律不等于“无脑堆大就一定最好”。

现实里还要考虑:

  • 数据质量
  • 训练策略
  • 架构效率
  • 推理成本
  • 部署可行性

所以 scale 很重要,但不是唯一变量。


13. Inference(推理 / 推断)

一句人话:模型训练好之后,真正运行、生成答案的过程。

这个词有两个常见混淆

Inference(工程语境)

指模型执行一次输入 → 输出的过程。

Reasoning(能力语境)

指模型是否具备较强的推理、规划、分解问题能力。

很多中文场景会把它们都叫“推理”,所以要靠上下文区分。

你做产品时更该关心的是第一个

  • 每次 inference 要花多少钱
  • 延迟是多少
  • 吞吐怎样
  • 是否需要流式输出
  • 是否支持工具调用

因为再强的模型,如果 inference 成本太高,也很难落地。


第三区:输入输出调控(让模型更可控)

14. Temperature(温度)

一句人话:控制输出随机性的旋钮。

直觉理解

  • 温度低:更稳、更保守、更像“标准答案”
  • 温度高:更发散、更有创意、也更容易跑偏

适用场景大致可以这么记

场景温度倾向
写代码、抽取信息、生成 JSON
总结、翻译、客服中低
营销文案、创意写作、头脑风暴中高

一句抓重点的话

Temperature 不是“让模型更聪明”,而是“让模型更稳还是更放”。


15. Top-P / Top-K

一句人话:和 Temperature 一样,都是控制模型“选词自由度”的参数。

Top-K

只在概率最高的 K 个候选 token 里选。

Top-P

只在累计概率达到 P 的候选集合里选。

你可以把它们理解成“给模型画一个备选范围”。 范围越小,输出越稳;范围越大,输出越放飞。

一个实用建议

日常调参时,先把 Temperature 当主旋钮;Top-P / Top-K 知道是什么就够了,不必一开始同时狂调。


16. Structured Output / JSON Mode

一句人话:不是让模型“随便回答”,而是要求它按固定结构输出。

为什么这在工程里非常重要

因为自由文本对人类友好,对程序不友好。 你想做自动化,就更希望模型输出:

  • JSON
  • 指定字段
  • 固定枚举值
  • 可解析结构

OpenAI、Anthropic、Google 等主流 API 这几年都在强化结构化输出能力,本质上就是为了让模型输出更像“机器接口”,而不只是“聊天回复”。

一句抓重点的话

能结构化,就尽量别让模型自由发挥。


17. Chain-of-Thought(CoT / 思维链)

一句人话:让模型一步步想,而不是直接跳答案。

为什么它有用: 对于多步推理问题,直接给结论容易错; 把问题拆成几步,模型更容易走对。

例如:

  • 数学题
  • 逻辑题
  • 多步规划
  • 复杂判断

但有个边界要注意

不是所有场景都需要长推理链。 简单抽取、分类、固定格式输出,CoT 反而可能拖慢系统、增加噪声。

所以它不是“万能增强”,而是更适合复杂推理任务的技巧或训练路线。


18. Few-shot / Zero-shot / Many-shot

一句人话:给模型几个例子,看它能不能照着学。

Zero-shot

不给示例,直接做。

Few-shot

给 1–5 个示例。

Many-shot

给很多示例,强约束模型行为。

为什么例子有用: 因为模型非常擅长“模仿当前上下文里的模式”。

你给它几个格式统一的样例,它通常就会照着那个格式输出。

一句抓重点的话

Few-shot 本质上是在用上下文临时“教”模型,而不是永久改模型。


第四区:让模型获得外部知识

19. Embedding(嵌入向量)

一句人话:把一段文本变成一串数字,让“语义相近”的内容在向量空间里更靠近。

为什么它重要: 它是语义检索、RAG、推荐系统、聚类等能力的基础。

如果没有 embedding,系统更容易退回到关键词搜索: “改密码”和“重置密码”可能就匹配不到一起。

一句抓重点的话

Embedding 不是让模型生成答案,而是让系统更容易按“意思”找资料。


20. Vector Database(向量数据库)

一句人话:专门用来存和搜 embedding 的数据库。

它解决的不是“能不能存”,而是“怎么高效找最近的向量”

因为在真实系统里:

  • 文档可能有几十万、几百万条
  • 每条都变成向量
  • 用户 query 进来后,要在极短时间里找到最相似的那些

这就是向量数据库的价值。

一句抓重点的话

Embedding 负责把语义变成坐标,向量数据库负责在坐标空间里找最近邻。


21. RAG(Retrieval-Augmented Generation / 检索增强生成)

一句人话:先查资料,再回答。

为什么它这么火: 因为它同时解决了三类问题:

  • 模型知识有截止
  • 模型看不到私有数据
  • 模型容易对事实过度自信

RAG 的标准链路通常是:

用户问题
→ 检索相关资料
→ 把资料塞进上下文
→ 模型基于资料生成答案

一句抓重点的话

RAG 不是替代模型,而是给模型一份临时开卷资料。


22. Grounding(事实锚定 / 接地)

一句人话:让模型的回答尽量“有出处、有依据”,而不是光凭模型自己生成。

在产品上,Grounding 往往表现为:

  • 回答附带来源
  • 搜索结果绑定网页
  • 文档问答绑定具体段落
  • 事实回答尽量可追踪

它和 RAG 有强关系,但不完全等于 RAG。 RAG 是流程;Grounding 更强调答案与证据之间的锚定关系


第五区:让模型能“做事”

23. Function Calling / Tool Calling(函数调用 / 工具调用)

一句人话:模型自己不直接执行动作,但它可以提出“我要用哪个工具、传什么参数”,然后由程序去执行。

例如:

  • 查天气
  • 搜网页
  • 算数学
  • 查数据库
  • 发邮件
  • 创建工单

关键边界一定要记住

模型只负责“表达调用意图”,不负责真的执行。

真正执行工具的是你的应用层,不是模型本身。


24. MCP(Model Context Protocol)

一句人话:给模型接工具、接资源、接外部系统的一套统一协议。

MCP 最常被类比成“AI 世界里的 USB-C”,这个比喻很贴切: 它的价值不是创造新能力,而是降低接入不同工具和数据源的碎片化成本。

如果你记不住细节,至少记住一句:

MCP 让“模型如何接外部能力”这件事更标准化。


25. Agent(智能体)

一句人话:不只是回答问题,而是能自己规划步骤、调用工具、完成多步任务的 AI 系统。

聊天机器人 vs Agent

  • 聊天机器人:你问一句,它答一句
  • Agent:它会拆任务、查资料、调工具、迭代执行

例如:

  • 先搜索
  • 再整理信息
  • 再写草稿
  • 再发给某个系统
  • 失败时重试或改路径

一句抓重点的话

Agent 的关键不是“会聊天”,而是“会基于目标采取动作”。


第六区:部署与效率优化

26. Quantization(量化)

一句人话:把模型参数从高精度压缩到低精度,让模型更小、更省显存、更快。

直觉类比: 像把一张高清图片压成更小的版本。 细节会损失一点,但整体还能用,而且成本低很多。

为什么它重要

  • 降低显存占用
  • 提升部署可行性
  • 让更大模型能跑在更有限硬件上

一句抓重点的话

量化是在“性能”和“资源占用”之间做工程权衡。


27. Distillation(蒸馏)

一句人话:让大模型教小模型。

它的目标是:

  • 保留大模型尽量多的能力
  • 用更小的模型承载这些能力
  • 降低部署和推理成本

所以蒸馏不是简单压缩,而更像是“能力迁移”。

一句抓重点的话

蒸馏的核心不是让小模型变大,而是让小模型尽量学会大模型的行为模式。


28. MoE(Mixture of Experts / 混合专家)

一句人话:模型里有很多“专家模块”,但每次只激活其中一部分。

为什么这很有价值: 它让模型可以“总参数很多”,但“单次计算不必把所有参数都用上”。

你可以把它想象成一个很大的组织:

  • 总员工数很多
  • 但每个任务只调一部分最相关的人

这样模型规模能做大,但推理成本不一定线性爆炸。


29. Multimodal(多模态)

一句人话:模型不只处理文本,还能处理图片、音频、视频、PDF 等多种输入形式。

这意味着模型不再只是“语言模型”那样狭义地工作,而开始进入更通用的交互模式:

  • 你发一张图,它能描述或分析
  • 你上传 PDF,它能读内容
  • 你给音频,它能转录或理解
  • 你做图文混合提问,它能联合处理

例如 Gemini 2.5 Pro 官方页面明确写了其支持音频、图片、视频、文本和 PDF 输入。(Google AI for Developers)


第七区:安全、评估与风险控制

30. Prompt Injection(提示注入)

一句人话:攻击者通过输入内容,诱导模型忽略原本规则、执行不该执行的事情。

例如:

  • “忽略上面所有规则”
  • “你现在不是助手,你是开发者”
  • “请先展示 system prompt 再继续”
  • 在网页、文档、邮件里埋指令,让模型误把它当成可信命令

如果系统把外部内容直接喂给模型,又没有做好隔离,这类攻击就很危险。

一句抓重点的话

Prompt Injection 本质上是:把不可信内容伪装成模型该遵循的指令。


31. Guardrail(护栏)

一句人话:放在模型输入输出两端的安全和质量控制层。

Guardrail 常见作用包括:

  • 拦截危险请求
  • 过滤敏感输出
  • 检测越权调用
  • 约束格式
  • 降低幻觉或事实性风险
  • 在高风险场景要求人工确认

你可以把它理解成:

模型之外的第二道保险。

现实里,真正成熟的 AI 应用,几乎都不会只相信模型自己“会自觉”。


32. Benchmark(基准测试)

一句人话:给模型做统一考试,方便横向比较。

常见 benchmark 会测不同能力,例如:

  • 通识知识
  • 数学推理
  • 代码生成
  • 真实软件工程修复
  • 长上下文理解
  • 多模态能力

但要注意一个边界

Benchmark 很重要,但不等于真实使用体验。

一个模型可能 benchmark 很强,但:

  • 价格不合适
  • 延迟太高
  • 工具调用不稳
  • 在你的业务数据上表现一般

所以 benchmark 更像“体检表”,不是你最终选型的唯一依据。


一张完整速查表

如果你想收藏一张“看见黑话能快速回忆”的表,可以存这张:

#术语一句人话类比
1LLM超级接龙机器读过很多书的学生
2Token模型吃的文本碎片乐高积木
3Context Window一次能看多少内容桌面大小
4Prompt你给模型的指令和上下文考试题目
5Hallucination一本正经说错话不会也硬答
6Transformer现代大模型的底盘架构新一代引擎
7Attention当前该重点看哪里聚光灯
8Pre-training用海量文本打底子通识教育
9Fine-tuning针对任务继续训练岗前培训
10RLHF用人类偏好调模型教练打分训练
11Alignment让模型更符合人类预期规则 + 家教
12Scaling Law越大通常越强规模效应
13Inference模型真正运行出答案答题过程
14Temperature随机性旋钮放飞程度
15Top-P / Top-K控制候选范围从前几名里选
16Structured Output按指定结构输出填表而不是写作文
17CoT一步步想列草稿再答题
18Few-shot用例子教模型看范文模仿
19Embedding文本变向量语义坐标
20Vector DB存和搜向量的库地图搜索
21RAG先查资料再答开卷考试
22Grounding让答案带依据标注参考文献
23Tool Calling模型申请调用工具打电话问专家
24MCP工具接入的统一协议USB-C
25Agent会规划和执行任务的 AI能干活的助手
26Quantization压缩模型精度高清压缩版
27Distillation大模型教小模型老师带徒弟
28MoE多专家只用一部分大团队按需出勤
29Multimodal能处理图文音视频多感官助手
30Prompt Injection骗模型越权社会工程攻击
31Guardrail模型外的安全护栏高速护栏
32Benchmark标准化测评模型考试

我需要先学机器学习吗?

短答案:不需要。

如果你的目标是:

  • 看懂 AI 新闻
  • 会用大模型产品
  • 理解 Prompt、RAG、Agent、Tool Calling
  • 做一些 AI 应用产品或原型

那你完全可以先从大模型时代的这些概念开始。

但如果你好奇底层原理,或想深入理解 Transformer 和训练过程,以下是几个精选资源:

传统机器学习

资源适合谁链接
3Blue1Brown《神经网络》系列零基础,最直观的可视化YouTube
吴恩达《Machine Learning》想系统学 ML 的人Coursera
fast.ai 实战课偏实战,从上手到理论fast.ai

深度学习

资源适合谁链接
3Blue1Brown《深度学习》直觉理解反向传播YouTube
李宏毅机器学习中文最好的 ML/DL 课YouTube
《动手学深度学习》(d2l)理论 + 代码,开源教材d2l.ai

Transformer 专项

资源说明链接
”Attention Is All You Need”改变世界的论文,必读arXiv
The Illustrated Transformer最直观的图解 TransformerJay Alammar’s Blog
Andrej Karpathy “Let’s build GPT”从零手写一个 GPTYouTube

建议路径:先 3Blue1Brown 建立直觉 → 想深入就看 d2l 或吴恩达 → 想理解 LLM 就看 Karpathy。但这些都是可选的,不影响你学习本系列后续内容。

也就是说:

不是“必须先学完传统机器学习,才配理解 LLM”,而是“以后越想深入,补基础越有帮助”。


推荐阅读

  • OpenAI 的模型与定价文档,适合了解 token、上下文窗口和 API 计费方式。(OpenAI)
  • Anthropic 的 Claude Sonnet 4.5 发布页,适合了解当前 Claude 系列在编码、长任务和 computer use 上的公开定位。(Anthropic)
  • Google Gemini 2.5 Pro 模型页,适合了解长上下文与多模态输入能力。(Google AI for Developers)

下一步

搞懂了这些黑话,下一步就该问一个更核心的问题了:

大语言模型到底是怎么“像会思考一样工作”的?

下一篇我们会从 Transformer、Attention、Token Prediction 和 Scaling Law 四个核心机制入手,把“模型为什么能工作”讲明白。