AI 黑话通关手册
flowchart LR
A["AI 黑话通关手册"]
A --> B["分类:基础概念"]
A --> C["关键词:AI"]
A --> D["关键词:LLM"]
A --> E["关键词:入门"]
A --> F["关键词:术语"]
你有没有这种经历:听别人聊 AI,满嘴 Token、RAG、Agent、RLHF、MCP……你表面点头,内心只剩一句:“这人在说什么?”
这篇文章就是你的解药。
这篇文章能给你什么
AI 圈最擅长两件事:
- 造新能力
- 造新黑话
但说到底,今天大多数生成式 AI 的底层逻辑其实没那么玄:
把文字切碎 → 变成数字 → 根据上下文预测下一个最可能出现的 token。
你可以把这篇文章当成一份“AI 术语地图”。
它不会把每个词都讲成论文,但会帮你快速建立三个东西:
- 直觉:这个词到底在说什么
- 边界:它跟相近概念有什么区别
- 应用感:它在真实产品和工程里有什么用
全文分成 7 个区,每个术语尽量给你三层理解:
- 一句人话
- 原理速通
- 真实场景 / 类比
如果你是 AI 新手,这篇够你入门;
如果你已经在刷 AI 新闻,这篇能帮你把零散概念串成体系。
一张图看懂 AI 黑话地图
你说了一句话
│
┌───▼───┐
│ Token │ ← 文本切成模型能吃的碎片
└───┬───┘
│
┌──────▼──────┐
│ Embedding │ ← 变成一串数字(向量)
└──────┬──────┘
│
┌─────────▼─────────┐
│ LLM / Model │ ← 超级接龙机器开始预测
│ (Transformer) │
└─────────┬─────────┘
│
┌────────────▼────────────┐
│ Temperature / Top-P │ ← 控制回答更稳还是更放飞
└────────────┬────────────┘
│
┌───────────────▼────────────────┐
│ 需要外部知识?需要执行动作? │
│ ↓ RAG ↓ Tool │
│ 去知识库查 调天气/搜索/API │
└───────────────┬────────────────┘
│
┌────▼────┐
│ 输出! │ ← 但可能有幻觉
└─────────┘
看不懂没关系。下面我们从最核心的 5 个词开始,一层层拆。
第一区:核心概念(先搞懂这 5 个,后面全通)
1. LLM(Large Language Model / 大语言模型)
一句人话:一个在海量文本上训练出来的“超级接龙机器”。你给它开头,它预测后面最可能接什么。
原理速通: LLM 的训练目标通常不是“理解世界”,而是“根据前文预测下一个 token”。但因为它见过的语言模式太多,这种“预测下一个 token”的能力,会涌现出问答、总结、翻译、写代码、对话等各种能力。
一个很有用的类比: 想象一个没亲身经历过现实世界、但读过无数书和网页的人。它不一定真的“懂”,但见过的表达、知识和模式太多,所以大多数时候能说得像懂。
截至 2026 年 3 月,一些公开可见的主流模型家族包括:
- OpenAI 的 GPT-5 系列(
gpt-5/gpt-5-mini/gpt-5-nano)以及 GPT-4.1 系列;GPT-5 面向开发者提供reasoning_effort和verbosity等参数,GPT-4.1 系列支持最高 100 万 token 上下文。(OpenAI) - Anthropic 的 Claude Sonnet 4.5,可通过 API 使用,官方强调其在编码、长任务和 computer use 方面的提升。(Anthropic)
- Google 的 Gemini 2.5 Pro,官方将其描述为面向代码、数学、STEM 和长上下文分析的“thinking model”,输入上限约 1,048,576 token。(Google AI for Developers)
你真正该记住的不是型号,而是:
LLM 是今天几乎所有生成式 AI 产品的底层引擎。
2. Token(令牌)
一句人话:AI 不直接“看字”,它先把文本切成很多小块,每块就是一个 token。
原理速通: 模型处理文本时,不会把整句话当成一个整体,而是先做分词 / 切片。这个切出来的最小工作单位,就是 token。 在英文里,一个 token 可能是一个单词、一部分单词,甚至一个标点;在中文里,一个汉字常常就是一个 token,但也不是绝对一一对应。
为什么你必须关心它:
-
Token = 成本 大多数模型 API 按 token 计费。OpenAI 当前公开定价中,GPT-4o 的输入价格是每百万 token 2.50 美元,输出价格是每百万 token 10 美元。(OpenAI开发者)
-
Token = 上限 模型不是无限吃文本的。它一次最多只能处理一个上下文窗口里的 token 数量。
-
Token ≠ 字符 ≠ 单词 同样长度的中文、英文、代码,token 消耗往往不一样。
一个实用直觉:
- 英文里,1 token 往往接近几字符或一个词的一部分
- 中文里,很多时候一个汉字接近一个 token
- 代码、JSON、表格通常更“吃 token”
所以你以后看到“这个 prompt 很贵”时,别问“多少字”,先问:
多少 token?
3. Context Window(上下文窗口)
一句人话:模型一次“能同时看到多少内容”的上限。
类比: 把模型想象成坐在桌前看资料的人。 桌面越大,它一次能摊开的资料就越多。 桌子外面的纸,不是永久消失了,而是这次推理里它看不到。
为什么这件事重要:
- 你塞给模型的 system prompt、历史消息、RAG 检索结果、用户输入,全部都在抢同一个窗口
- 窗口不够大,就必须删、截断、摘要
- 窗口再大,也不代表模型一定“记得住”中间的所有内容
几个公开可见的例子:
- GPT-4.1 系列官方支持最高 100 万 token 上下文。(OpenAI)
- Gemini 2.5 Pro 官方页面给出的输入 token 上限约为 1,048,576。(Google AI for Developers)
但有个特别容易误解的点:
上下文窗口大,不等于模型记忆力就完美。
把一条关键信息埋在几十万 token 的中间位置,模型依然可能利用不好。这也是为什么长上下文没有让 RAG 过时: 长上下文解决“能塞多少”,RAG 解决“该塞什么”。
4. Prompt(提示词)
一句人话:你给模型的输入指令。
原理速通: Prompt 不只是“你问的问题”,还可能包括:
- System Prompt:角色设定、规则、边界
- User Message:用户这轮输入
- 历史消息:前面的对话
- Few-shot 示例:几个输入输出样例
- 检索结果:RAG 找回来的资料
- 工具结果:例如搜索、天气、数据库查询返回值
所以现代 Prompt 往往不是一句话,而是一个被精心组织的上下文包。
为什么同一个模型,Prompt 不同,效果差很多:
因为模型本质上是“条件生成系统”—— 你给它什么上下文,它就沿着那个上下文去预测。 Prompt 模糊,输出就容易漂;Prompt 清楚,输出就更可控。
一个直观例子:
弱 prompt:
写点东西介绍我们的产品。
强 prompt:
你是 B2B SaaS 产品营销经理。请面向企业采购负责人,写一段 150 字以内的产品介绍。
要求:
1. 强调“部署快、权限管理、审计日志”
2. 不要使用夸张营销词
3. 结尾给一个明确 CTA
后者不是“模型更聪明”,而是输入更清楚。
5. Hallucination(幻觉)
一句人话:模型一本正经地说错话,甚至编造事实。
原理速通: 模型的目标通常是“生成最可能出现的下一个 token”,不是“保证真实”。 所以当它不知道答案、资料不足、或者上下文冲突时,它依然倾向于输出一个“看起来像答案”的内容。
典型表现:
- 编不存在的论文、案例、API
- 把模糊信息补成特别具体的细节
- 推理过程很长,但结论还是错
- 引用一个看似合理但并不存在的来源
一个非常重要的边界:
幻觉不等于胡言乱语。
真正危险的幻觉,往往恰恰是:
- 语气自然
- 格式专业
- 细节丰富
- 听起来特别像真的
这也是为什么高风险场景不能只靠模型“说得像真的”。
常见缓解方法:
- RAG:让它先查资料
- Grounding:强制带来源
- Tool Calling:把可验证的计算 / 查询交给工具
- Guardrails:对输入输出做安全和事实约束
- 人工审核:医疗、法律、金融等场景尤其重要
第二区:模型为什么会“像会思考一样工作”
6. Transformer
一句人话:今天几乎所有主流大模型的底层架构。
为什么它重要: 如果没有 Transformer,今天的 GPT、Claude、Gemini、Llama 这一代模型基本不会以现在的样子存在。
最核心的变化: Transformer 把“语言建模”从老式的顺序传递,变成了基于 attention 的全局建模。 简单说,就是模型在处理一句话时,不再只能一个词一个词慢慢往后传,而是能更直接地建模词与词之间的关系。
你不需要记住矩阵公式,但要记住一件事:
Transformer 是大模型时代的底盘。
7. Attention(注意力机制)
一句人话:模型在当前这一步,决定“应该重点看哪些词、哪些位置”。
类比: 你读一段文字时,不会每次都平均看所有词。 看到“它指的是谁”,你会回头找前文主语; 看到“因此”,你会去找前面的因果关系。 Attention 做的就是类似的事情,只不过它是数学化、可训练的。
为什么它重要:
- 让模型更好处理长距离依赖
- 让一个 token 能“参考”上下文里其他 token
- 是 Transformer 能成立的关键之一
一句抓重点的话:
Attention 不是“记忆”,而是“当前这一步该关注什么”。
8. Pre-training(预训练)
一句人话:把海量文本喂给模型,让它学会语言模式和世界知识的基础阶段。
原理速通: 预训练的核心任务通常很朴素: 给你一段前文,预测下一个 token。
这件事看起来简单,但当数据足够大、模型足够大时,模型会逐渐学会:
- 语言规律
- 常识知识
- 基础代码模式
- 一些推理与归纳能力
可以这样理解:
- 预训练 = 打底子
- 它决定模型“会不会说、懂不懂常见模式”
- 但它不直接决定模型是否“好用、听话、安全”
这也是为什么光有 Base Model,通常还不够。
9. Fine-tuning(微调)
一句人话:在预训练模型基础上,再用特定数据继续训练,让它更适合某种任务或风格。
你可以把它理解成:
- 预训练 = 通识教育
- 微调 = 岗前培训
微调常见用途:
- 学某种专业风格
- 固化某类输出格式
- 适应领域术语
- 在小模型上提升某类任务表现
要注意的一点:
微调更适合改“行为模式”和“风格偏好”,不太适合频繁更新的事实知识。
如果知识每周都变,通常更适合 RAG,而不是反复重训。
10. RLHF(Reinforcement Learning from Human Feedback)
一句人话:让人类或偏好信号来教模型“什么样的回答更好”。
为什么需要它: 一个只做预训练的模型,可能会:
- 接龙式回答
- 不按指令来
- 风格不稳
- 安全性差
- 拒答和乱答都很多
RLHF 这类对齐训练的目标,就是让模型更像一个“能用的助手”,而不只是一个会续写文本的机器。
粗略流程:
- 给同一问题生成多个回答
- 让人类或偏好系统排序
- 用这些排序信号训练奖励或偏好优化过程
- 让模型更倾向输出人类更满意的回答
一句抓重点的话:
预训练让模型“会说话”,RLHF 让模型“更像你想用的助手”。
11. Alignment(对齐)
一句人话:让模型的行为尽量符合人类期望、产品规则和安全边界。
为什么它是个大词: 因为“好模型”不只是能力强,还得:
- 能遵循意图
- 避免危险输出
- 在不确定时别装懂
- 不要轻易越权
这背后都属于 Alignment 的范畴。
它最容易被误解的地方:
很多人把 alignment 理解成“政治正确”或“内容审查”。 其实更广义地说,它是:
如何让模型在能力、可用性、安全性之间取得平衡。
对齐过松,模型容易胡来; 对齐过紧,正常问题也可能被拒答。
12. Scaling Law(规模定律)
一句人话:模型参数、数据量、训练算力增加时,能力通常会按某种规律持续提升。
为什么这个词重要: 因为它解释了过去几年大模型为什么会越来越强: 不是某个神秘算法突然出现,而是很多能力在“更大模型 + 更多数据 + 更多算力”下持续增长。
但要注意:
规模定律不等于“无脑堆大就一定最好”。
现实里还要考虑:
- 数据质量
- 训练策略
- 架构效率
- 推理成本
- 部署可行性
所以 scale 很重要,但不是唯一变量。
13. Inference(推理 / 推断)
一句人话:模型训练好之后,真正运行、生成答案的过程。
这个词有两个常见混淆:
Inference(工程语境)
指模型执行一次输入 → 输出的过程。
Reasoning(能力语境)
指模型是否具备较强的推理、规划、分解问题能力。
很多中文场景会把它们都叫“推理”,所以要靠上下文区分。
你做产品时更该关心的是第一个:
- 每次 inference 要花多少钱
- 延迟是多少
- 吞吐怎样
- 是否需要流式输出
- 是否支持工具调用
因为再强的模型,如果 inference 成本太高,也很难落地。
第三区:输入输出调控(让模型更可控)
14. Temperature(温度)
一句人话:控制输出随机性的旋钮。
直觉理解:
- 温度低:更稳、更保守、更像“标准答案”
- 温度高:更发散、更有创意、也更容易跑偏
适用场景大致可以这么记:
| 场景 | 温度倾向 |
|---|---|
| 写代码、抽取信息、生成 JSON | 低 |
| 总结、翻译、客服 | 中低 |
| 营销文案、创意写作、头脑风暴 | 中高 |
一句抓重点的话:
Temperature 不是“让模型更聪明”,而是“让模型更稳还是更放”。
15. Top-P / Top-K
一句人话:和 Temperature 一样,都是控制模型“选词自由度”的参数。
Top-K
只在概率最高的 K 个候选 token 里选。
Top-P
只在累计概率达到 P 的候选集合里选。
你可以把它们理解成“给模型画一个备选范围”。 范围越小,输出越稳;范围越大,输出越放飞。
一个实用建议:
日常调参时,先把 Temperature 当主旋钮;Top-P / Top-K 知道是什么就够了,不必一开始同时狂调。
16. Structured Output / JSON Mode
一句人话:不是让模型“随便回答”,而是要求它按固定结构输出。
为什么这在工程里非常重要:
因为自由文本对人类友好,对程序不友好。 你想做自动化,就更希望模型输出:
- JSON
- 指定字段
- 固定枚举值
- 可解析结构
OpenAI、Anthropic、Google 等主流 API 这几年都在强化结构化输出能力,本质上就是为了让模型输出更像“机器接口”,而不只是“聊天回复”。
一句抓重点的话:
能结构化,就尽量别让模型自由发挥。
17. Chain-of-Thought(CoT / 思维链)
一句人话:让模型一步步想,而不是直接跳答案。
为什么它有用: 对于多步推理问题,直接给结论容易错; 把问题拆成几步,模型更容易走对。
例如:
- 数学题
- 逻辑题
- 多步规划
- 复杂判断
但有个边界要注意:
不是所有场景都需要长推理链。 简单抽取、分类、固定格式输出,CoT 反而可能拖慢系统、增加噪声。
所以它不是“万能增强”,而是更适合复杂推理任务的技巧或训练路线。
18. Few-shot / Zero-shot / Many-shot
一句人话:给模型几个例子,看它能不能照着学。
Zero-shot
不给示例,直接做。
Few-shot
给 1–5 个示例。
Many-shot
给很多示例,强约束模型行为。
为什么例子有用: 因为模型非常擅长“模仿当前上下文里的模式”。
你给它几个格式统一的样例,它通常就会照着那个格式输出。
一句抓重点的话:
Few-shot 本质上是在用上下文临时“教”模型,而不是永久改模型。
第四区:让模型获得外部知识
19. Embedding(嵌入向量)
一句人话:把一段文本变成一串数字,让“语义相近”的内容在向量空间里更靠近。
为什么它重要: 它是语义检索、RAG、推荐系统、聚类等能力的基础。
如果没有 embedding,系统更容易退回到关键词搜索: “改密码”和“重置密码”可能就匹配不到一起。
一句抓重点的话:
Embedding 不是让模型生成答案,而是让系统更容易按“意思”找资料。
20. Vector Database(向量数据库)
一句人话:专门用来存和搜 embedding 的数据库。
它解决的不是“能不能存”,而是“怎么高效找最近的向量”。
因为在真实系统里:
- 文档可能有几十万、几百万条
- 每条都变成向量
- 用户 query 进来后,要在极短时间里找到最相似的那些
这就是向量数据库的价值。
一句抓重点的话:
Embedding 负责把语义变成坐标,向量数据库负责在坐标空间里找最近邻。
21. RAG(Retrieval-Augmented Generation / 检索增强生成)
一句人话:先查资料,再回答。
为什么它这么火: 因为它同时解决了三类问题:
- 模型知识有截止
- 模型看不到私有数据
- 模型容易对事实过度自信
RAG 的标准链路通常是:
用户问题
→ 检索相关资料
→ 把资料塞进上下文
→ 模型基于资料生成答案
一句抓重点的话:
RAG 不是替代模型,而是给模型一份临时开卷资料。
22. Grounding(事实锚定 / 接地)
一句人话:让模型的回答尽量“有出处、有依据”,而不是光凭模型自己生成。
在产品上,Grounding 往往表现为:
- 回答附带来源
- 搜索结果绑定网页
- 文档问答绑定具体段落
- 事实回答尽量可追踪
它和 RAG 有强关系,但不完全等于 RAG。 RAG 是流程;Grounding 更强调答案与证据之间的锚定关系。
第五区:让模型能“做事”
23. Function Calling / Tool Calling(函数调用 / 工具调用)
一句人话:模型自己不直接执行动作,但它可以提出“我要用哪个工具、传什么参数”,然后由程序去执行。
例如:
- 查天气
- 搜网页
- 算数学
- 查数据库
- 发邮件
- 创建工单
关键边界一定要记住:
模型只负责“表达调用意图”,不负责真的执行。
真正执行工具的是你的应用层,不是模型本身。
24. MCP(Model Context Protocol)
一句人话:给模型接工具、接资源、接外部系统的一套统一协议。
MCP 最常被类比成“AI 世界里的 USB-C”,这个比喻很贴切: 它的价值不是创造新能力,而是降低接入不同工具和数据源的碎片化成本。
如果你记不住细节,至少记住一句:
MCP 让“模型如何接外部能力”这件事更标准化。
25. Agent(智能体)
一句人话:不只是回答问题,而是能自己规划步骤、调用工具、完成多步任务的 AI 系统。
聊天机器人 vs Agent
- 聊天机器人:你问一句,它答一句
- Agent:它会拆任务、查资料、调工具、迭代执行
例如:
- 先搜索
- 再整理信息
- 再写草稿
- 再发给某个系统
- 失败时重试或改路径
一句抓重点的话:
Agent 的关键不是“会聊天”,而是“会基于目标采取动作”。
第六区:部署与效率优化
26. Quantization(量化)
一句人话:把模型参数从高精度压缩到低精度,让模型更小、更省显存、更快。
直觉类比: 像把一张高清图片压成更小的版本。 细节会损失一点,但整体还能用,而且成本低很多。
为什么它重要:
- 降低显存占用
- 提升部署可行性
- 让更大模型能跑在更有限硬件上
一句抓重点的话:
量化是在“性能”和“资源占用”之间做工程权衡。
27. Distillation(蒸馏)
一句人话:让大模型教小模型。
它的目标是:
- 保留大模型尽量多的能力
- 用更小的模型承载这些能力
- 降低部署和推理成本
所以蒸馏不是简单压缩,而更像是“能力迁移”。
一句抓重点的话:
蒸馏的核心不是让小模型变大,而是让小模型尽量学会大模型的行为模式。
28. MoE(Mixture of Experts / 混合专家)
一句人话:模型里有很多“专家模块”,但每次只激活其中一部分。
为什么这很有价值: 它让模型可以“总参数很多”,但“单次计算不必把所有参数都用上”。
你可以把它想象成一个很大的组织:
- 总员工数很多
- 但每个任务只调一部分最相关的人
这样模型规模能做大,但推理成本不一定线性爆炸。
29. Multimodal(多模态)
一句人话:模型不只处理文本,还能处理图片、音频、视频、PDF 等多种输入形式。
这意味着模型不再只是“语言模型”那样狭义地工作,而开始进入更通用的交互模式:
- 你发一张图,它能描述或分析
- 你上传 PDF,它能读内容
- 你给音频,它能转录或理解
- 你做图文混合提问,它能联合处理
例如 Gemini 2.5 Pro 官方页面明确写了其支持音频、图片、视频、文本和 PDF 输入。(Google AI for Developers)
第七区:安全、评估与风险控制
30. Prompt Injection(提示注入)
一句人话:攻击者通过输入内容,诱导模型忽略原本规则、执行不该执行的事情。
例如:
- “忽略上面所有规则”
- “你现在不是助手,你是开发者”
- “请先展示 system prompt 再继续”
- 在网页、文档、邮件里埋指令,让模型误把它当成可信命令
如果系统把外部内容直接喂给模型,又没有做好隔离,这类攻击就很危险。
一句抓重点的话:
Prompt Injection 本质上是:把不可信内容伪装成模型该遵循的指令。
31. Guardrail(护栏)
一句人话:放在模型输入输出两端的安全和质量控制层。
Guardrail 常见作用包括:
- 拦截危险请求
- 过滤敏感输出
- 检测越权调用
- 约束格式
- 降低幻觉或事实性风险
- 在高风险场景要求人工确认
你可以把它理解成:
模型之外的第二道保险。
现实里,真正成熟的 AI 应用,几乎都不会只相信模型自己“会自觉”。
32. Benchmark(基准测试)
一句人话:给模型做统一考试,方便横向比较。
常见 benchmark 会测不同能力,例如:
- 通识知识
- 数学推理
- 代码生成
- 真实软件工程修复
- 长上下文理解
- 多模态能力
但要注意一个边界:
Benchmark 很重要,但不等于真实使用体验。
一个模型可能 benchmark 很强,但:
- 价格不合适
- 延迟太高
- 工具调用不稳
- 在你的业务数据上表现一般
所以 benchmark 更像“体检表”,不是你最终选型的唯一依据。
一张完整速查表
如果你想收藏一张“看见黑话能快速回忆”的表,可以存这张:
| # | 术语 | 一句人话 | 类比 |
|---|---|---|---|
| 1 | LLM | 超级接龙机器 | 读过很多书的学生 |
| 2 | Token | 模型吃的文本碎片 | 乐高积木 |
| 3 | Context Window | 一次能看多少内容 | 桌面大小 |
| 4 | Prompt | 你给模型的指令和上下文 | 考试题目 |
| 5 | Hallucination | 一本正经说错话 | 不会也硬答 |
| 6 | Transformer | 现代大模型的底盘架构 | 新一代引擎 |
| 7 | Attention | 当前该重点看哪里 | 聚光灯 |
| 8 | Pre-training | 用海量文本打底子 | 通识教育 |
| 9 | Fine-tuning | 针对任务继续训练 | 岗前培训 |
| 10 | RLHF | 用人类偏好调模型 | 教练打分训练 |
| 11 | Alignment | 让模型更符合人类预期 | 规则 + 家教 |
| 12 | Scaling Law | 越大通常越强 | 规模效应 |
| 13 | Inference | 模型真正运行出答案 | 答题过程 |
| 14 | Temperature | 随机性旋钮 | 放飞程度 |
| 15 | Top-P / Top-K | 控制候选范围 | 从前几名里选 |
| 16 | Structured Output | 按指定结构输出 | 填表而不是写作文 |
| 17 | CoT | 一步步想 | 列草稿再答题 |
| 18 | Few-shot | 用例子教模型 | 看范文模仿 |
| 19 | Embedding | 文本变向量 | 语义坐标 |
| 20 | Vector DB | 存和搜向量的库 | 地图搜索 |
| 21 | RAG | 先查资料再答 | 开卷考试 |
| 22 | Grounding | 让答案带依据 | 标注参考文献 |
| 23 | Tool Calling | 模型申请调用工具 | 打电话问专家 |
| 24 | MCP | 工具接入的统一协议 | USB-C |
| 25 | Agent | 会规划和执行任务的 AI | 能干活的助手 |
| 26 | Quantization | 压缩模型精度 | 高清压缩版 |
| 27 | Distillation | 大模型教小模型 | 老师带徒弟 |
| 28 | MoE | 多专家只用一部分 | 大团队按需出勤 |
| 29 | Multimodal | 能处理图文音视频 | 多感官助手 |
| 30 | Prompt Injection | 骗模型越权 | 社会工程攻击 |
| 31 | Guardrail | 模型外的安全护栏 | 高速护栏 |
| 32 | Benchmark | 标准化测评 | 模型考试 |
我需要先学机器学习吗?
短答案:不需要。
如果你的目标是:
- 看懂 AI 新闻
- 会用大模型产品
- 理解 Prompt、RAG、Agent、Tool Calling
- 做一些 AI 应用产品或原型
那你完全可以先从大模型时代的这些概念开始。
但如果你好奇底层原理,或想深入理解 Transformer 和训练过程,以下是几个精选资源:
传统机器学习
| 资源 | 适合谁 | 链接 |
|---|---|---|
| 3Blue1Brown《神经网络》系列 | 零基础,最直观的可视化 | YouTube |
| 吴恩达《Machine Learning》 | 想系统学 ML 的人 | Coursera |
| fast.ai 实战课 | 偏实战,从上手到理论 | fast.ai |
深度学习
| 资源 | 适合谁 | 链接 |
|---|---|---|
| 3Blue1Brown《深度学习》 | 直觉理解反向传播 | YouTube |
| 李宏毅机器学习 | 中文最好的 ML/DL 课 | YouTube |
| 《动手学深度学习》(d2l) | 理论 + 代码,开源教材 | d2l.ai |
Transformer 专项
| 资源 | 说明 | 链接 |
|---|---|---|
| ”Attention Is All You Need” | 改变世界的论文,必读 | arXiv |
| The Illustrated Transformer | 最直观的图解 Transformer | Jay Alammar’s Blog |
| Andrej Karpathy “Let’s build GPT” | 从零手写一个 GPT | YouTube |
建议路径:先 3Blue1Brown 建立直觉 → 想深入就看 d2l 或吴恩达 → 想理解 LLM 就看 Karpathy。但这些都是可选的,不影响你学习本系列后续内容。
也就是说:
不是“必须先学完传统机器学习,才配理解 LLM”,而是“以后越想深入,补基础越有帮助”。
推荐阅读
- OpenAI 的模型与定价文档,适合了解 token、上下文窗口和 API 计费方式。(OpenAI)
- Anthropic 的 Claude Sonnet 4.5 发布页,适合了解当前 Claude 系列在编码、长任务和 computer use 上的公开定位。(Anthropic)
- Google Gemini 2.5 Pro 模型页,适合了解长上下文与多模态输入能力。(Google AI for Developers)
下一步
搞懂了这些黑话,下一步就该问一个更核心的问题了:
大语言模型到底是怎么“像会思考一样工作”的?
下一篇我们会从 Transformer、Attention、Token Prediction 和 Scaling Law 四个核心机制入手,把“模型为什么能工作”讲明白。