AI 黑话通关手册

flowchart LR
  A["AI 黑话通关手册"]
  A --> B["分类：基础概念"]
  A --> C["关键词：AI"]
  A --> D["关键词：LLM"]
  A --> E["关键词：入门"]
  A --> F["关键词：术语"]

你有没有这种经历：听别人聊 AI，满嘴 Token、RAG、Agent、RLHF、MCP……你表面点头，内心只剩一句：“这人在说什么？”

这篇文章就是你的解药。

这篇文章能给你什么

AI 圈最擅长两件事：

造新能力
造新黑话

但说到底，今天大多数生成式 AI 的底层逻辑其实没那么玄：

把文字切碎 → 变成数字 → 根据上下文预测下一个最可能出现的 token。

你可以把这篇文章当成一份“AI 术语地图”。
它不会把每个词都讲成论文，但会帮你快速建立三个东西：

直觉：这个词到底在说什么
边界：它跟相近概念有什么区别
应用感：它在真实产品和工程里有什么用

全文分成 7 个区，每个术语尽量给你三层理解：

一句人话
原理速通
真实场景 / 类比

如果你是 AI 新手，这篇够你入门；
如果你已经在刷 AI 新闻，这篇能帮你把零散概念串成体系。

一张图看懂 AI 黑话地图

                    你说了一句话
                        │
                    ┌───▼───┐
                    │ Token │  ← 文本切成模型能吃的碎片
                    └───┬───┘
                        │
                 ┌──────▼──────┐
                 │ Embedding   │  ← 变成一串数字（向量）
                 └──────┬──────┘
                        │
              ┌─────────▼─────────┐
              │   LLM / Model     │  ← 超级接龙机器开始预测
              │  (Transformer)    │
              └─────────┬─────────┘
                        │
           ┌────────────▼────────────┐
           │ Temperature / Top-P     │  ← 控制回答更稳还是更放飞
           └────────────┬────────────┘
                        │
        ┌───────────────▼────────────────┐
        │  需要外部知识？需要执行动作？    │
        │    ↓ RAG           ↓ Tool      │
        │  去知识库查      调天气/搜索/API │
        └───────────────┬────────────────┘
                        │
                   ┌────▼────┐
                   │  输出！  │  ← 但可能有幻觉
                   └─────────┘

看不懂没关系。下面我们从最核心的 5 个词开始，一层层拆。

第一区：核心概念（先搞懂这 5 个，后面全通）

1. LLM（Large Language Model / 大语言模型）

一句人话：一个在海量文本上训练出来的“超级接龙机器”。你给它开头，它预测后面最可能接什么。

原理速通： LLM 的训练目标通常不是“理解世界”，而是“根据前文预测下一个 token”。但因为它见过的语言模式太多，这种“预测下一个 token”的能力，会涌现出问答、总结、翻译、写代码、对话等各种能力。

一个很有用的类比：想象一个没亲身经历过现实世界、但读过无数书和网页的人。它不一定真的“懂”，但见过的表达、知识和模式太多，所以大多数时候能说得像懂。

截至 2026 年 3 月，一些公开可见的主流模型家族包括：

OpenAI 的 GPT-5 系列（gpt-5 / gpt-5-mini / gpt-5-nano）以及 GPT-4.1 系列；GPT-5 面向开发者提供 reasoning_effort 和 verbosity 等参数，GPT-4.1 系列支持最高 100 万 token 上下文。(OpenAI)
Anthropic 的 Claude Sonnet 4.5，可通过 API 使用，官方强调其在编码、长任务和 computer use 方面的提升。(Anthropic)
Google 的 Gemini 2.5 Pro，官方将其描述为面向代码、数学、STEM 和长上下文分析的“thinking model”，输入上限约 1,048,576 token。(Google AI for Developers)

你真正该记住的不是型号，而是：

LLM 是今天几乎所有生成式 AI 产品的底层引擎。

2. Token（令牌）

一句人话：AI 不直接“看字”，它先把文本切成很多小块，每块就是一个 token。

原理速通：模型处理文本时，不会把整句话当成一个整体，而是先做分词 / 切片。这个切出来的最小工作单位，就是 token。在英文里，一个 token 可能是一个单词、一部分单词，甚至一个标点；在中文里，一个汉字常常就是一个 token，但也不是绝对一一对应。

为什么你必须关心它：

Token = 成本 大多数模型 API 按 token 计费。OpenAI 当前公开定价中，GPT-4o 的输入价格是每百万 token 2.50 美元，输出价格是每百万 token 10 美元。(OpenAI开发者)
Token = 上限 模型不是无限吃文本的。它一次最多只能处理一个上下文窗口里的 token 数量。
Token ≠ 字符 ≠ 单词 同样长度的中文、英文、代码，token 消耗往往不一样。

一个实用直觉：

英文里，1 token 往往接近几字符或一个词的一部分
中文里，很多时候一个汉字接近一个 token
代码、JSON、表格通常更“吃 token”

所以你以后看到“这个 prompt 很贵”时，别问“多少字”，先问：

多少 token？

3. Context Window（上下文窗口）

一句人话：模型一次“能同时看到多少内容”的上限。

类比：把模型想象成坐在桌前看资料的人。桌面越大，它一次能摊开的资料就越多。桌子外面的纸，不是永久消失了，而是这次推理里它看不到。

为什么这件事重要：

你塞给模型的 system prompt、历史消息、RAG 检索结果、用户输入，全部都在抢同一个窗口
窗口不够大，就必须删、截断、摘要
窗口再大，也不代表模型一定“记得住”中间的所有内容

几个公开可见的例子：

GPT-4.1 系列官方支持最高 100 万 token 上下文。(OpenAI)
Gemini 2.5 Pro 官方页面给出的输入 token 上限约为 1,048,576。(Google AI for Developers)

但有个特别容易误解的点：

上下文窗口大，不等于模型记忆力就完美。

把一条关键信息埋在几十万 token 的中间位置，模型依然可能利用不好。这也是为什么长上下文没有让 RAG 过时：长上下文解决“能塞多少”，RAG 解决“该塞什么”。

4. Prompt（提示词）

一句人话：你给模型的输入指令。

原理速通： Prompt 不只是“你问的问题”，还可能包括：

System Prompt：角色设定、规则、边界
User Message：用户这轮输入
历史消息：前面的对话
Few-shot 示例：几个输入输出样例
检索结果：RAG 找回来的资料
工具结果：例如搜索、天气、数据库查询返回值

所以现代 Prompt 往往不是一句话，而是一个被精心组织的上下文包。

为什么同一个模型，Prompt 不同，效果差很多：

因为模型本质上是“条件生成系统”—— 你给它什么上下文，它就沿着那个上下文去预测。 Prompt 模糊，输出就容易漂；Prompt 清楚，输出就更可控。

一个直观例子：

弱 prompt：

写点东西介绍我们的产品。

强 prompt：

你是 B2B SaaS 产品营销经理。请面向企业采购负责人，写一段 150 字以内的产品介绍。
要求：
1. 强调“部署快、权限管理、审计日志”
2. 不要使用夸张营销词
3. 结尾给一个明确 CTA

后者不是“模型更聪明”，而是输入更清楚。

5. Hallucination（幻觉）

一句人话：模型一本正经地说错话，甚至编造事实。

原理速通：模型的目标通常是“生成最可能出现的下一个 token”，不是“保证真实”。所以当它不知道答案、资料不足、或者上下文冲突时，它依然倾向于输出一个“看起来像答案”的内容。

典型表现：

编不存在的论文、案例、API
把模糊信息补成特别具体的细节
推理过程很长，但结论还是错
引用一个看似合理但并不存在的来源

一个非常重要的边界：

幻觉不等于胡言乱语。

真正危险的幻觉，往往恰恰是：

语气自然
格式专业
细节丰富
听起来特别像真的

这也是为什么高风险场景不能只靠模型“说得像真的”。

常见缓解方法：

RAG：让它先查资料
Grounding：强制带来源
Tool Calling：把可验证的计算 / 查询交给工具
Guardrails：对输入输出做安全和事实约束
人工审核：医疗、法律、金融等场景尤其重要

第二区：模型为什么会“像会思考一样工作”

6. Transformer

一句人话：今天几乎所有主流大模型的底层架构。

为什么它重要：如果没有 Transformer，今天的 GPT、Claude、Gemini、Llama 这一代模型基本不会以现在的样子存在。

最核心的变化： Transformer 把“语言建模”从老式的顺序传递，变成了基于 attention 的全局建模。简单说，就是模型在处理一句话时，不再只能一个词一个词慢慢往后传，而是能更直接地建模词与词之间的关系。

你不需要记住矩阵公式，但要记住一件事：

Transformer 是大模型时代的底盘。

7. Attention（注意力机制）

一句人话：模型在当前这一步，决定“应该重点看哪些词、哪些位置”。

类比：你读一段文字时，不会每次都平均看所有词。看到“它指的是谁”，你会回头找前文主语；看到“因此”，你会去找前面的因果关系。 Attention 做的就是类似的事情，只不过它是数学化、可训练的。

为什么它重要：

让模型更好处理长距离依赖
让一个 token 能“参考”上下文里其他 token
是 Transformer 能成立的关键之一

一句抓重点的话：

Attention 不是“记忆”，而是“当前这一步该关注什么”。

8. Pre-training（预训练）

一句人话：把海量文本喂给模型，让它学会语言模式和世界知识的基础阶段。

原理速通：预训练的核心任务通常很朴素：给你一段前文，预测下一个 token。

这件事看起来简单，但当数据足够大、模型足够大时，模型会逐渐学会：

语言规律
常识知识
基础代码模式
一些推理与归纳能力

可以这样理解：

预训练 = 打底子
它决定模型“会不会说、懂不懂常见模式”
但它不直接决定模型是否“好用、听话、安全”

这也是为什么光有 Base Model，通常还不够。

9. Fine-tuning（微调）

一句人话：在预训练模型基础上，再用特定数据继续训练，让它更适合某种任务或风格。

你可以把它理解成：

预训练 = 通识教育
微调 = 岗前培训

微调常见用途：

学某种专业风格
固化某类输出格式
适应领域术语
在小模型上提升某类任务表现

要注意的一点：

微调更适合改“行为模式”和“风格偏好”，不太适合频繁更新的事实知识。

如果知识每周都变，通常更适合 RAG，而不是反复重训。

10. RLHF（Reinforcement Learning from Human Feedback）

一句人话：让人类或偏好信号来教模型“什么样的回答更好”。

为什么需要它：一个只做预训练的模型，可能会：

接龙式回答
不按指令来
风格不稳
安全性差
拒答和乱答都很多

RLHF 这类对齐训练的目标，就是让模型更像一个“能用的助手”，而不只是一个会续写文本的机器。

粗略流程：

给同一问题生成多个回答
让人类或偏好系统排序
用这些排序信号训练奖励或偏好优化过程
让模型更倾向输出人类更满意的回答

一句抓重点的话：

预训练让模型“会说话”，RLHF 让模型“更像你想用的助手”。

11. Alignment（对齐）

一句人话：让模型的行为尽量符合人类期望、产品规则和安全边界。

为什么它是个大词：因为“好模型”不只是能力强，还得：

能遵循意图
避免危险输出
在不确定时别装懂
不要轻易越权

这背后都属于 Alignment 的范畴。

它最容易被误解的地方：

很多人把 alignment 理解成“政治正确”或“内容审查”。其实更广义地说，它是：

如何让模型在能力、可用性、安全性之间取得平衡。

对齐过松，模型容易胡来；对齐过紧，正常问题也可能被拒答。

12. Scaling Law（规模定律）

一句人话：模型参数、数据量、训练算力增加时，能力通常会按某种规律持续提升。

为什么这个词重要：因为它解释了过去几年大模型为什么会越来越强：不是某个神秘算法突然出现，而是很多能力在“更大模型 + 更多数据 + 更多算力”下持续增长。

但要注意：

规模定律不等于“无脑堆大就一定最好”。

现实里还要考虑：

数据质量
训练策略
架构效率
推理成本
部署可行性

所以 scale 很重要，但不是唯一变量。

13. Inference（推理 / 推断）

一句人话：模型训练好之后，真正运行、生成答案的过程。

这个词有两个常见混淆：

Inference（工程语境）

指模型执行一次输入 → 输出的过程。

Reasoning（能力语境）

指模型是否具备较强的推理、规划、分解问题能力。

很多中文场景会把它们都叫“推理”，所以要靠上下文区分。

你做产品时更该关心的是第一个：

每次 inference 要花多少钱
延迟是多少
吞吐怎样
是否需要流式输出
是否支持工具调用

因为再强的模型，如果 inference 成本太高，也很难落地。

第三区：输入输出调控（让模型更可控）

14. Temperature（温度）

一句人话：控制输出随机性的旋钮。

直觉理解：

温度低：更稳、更保守、更像“标准答案”
温度高：更发散、更有创意、也更容易跑偏

适用场景大致可以这么记：

场景	温度倾向
写代码、抽取信息、生成 JSON	低
总结、翻译、客服	中低
营销文案、创意写作、头脑风暴	中高

一句抓重点的话：

Temperature 不是“让模型更聪明”，而是“让模型更稳还是更放”。

15. Top-P / Top-K

一句人话：和 Temperature 一样，都是控制模型“选词自由度”的参数。

Top-K

只在概率最高的 K 个候选 token 里选。

Top-P

只在累计概率达到 P 的候选集合里选。

你可以把它们理解成“给模型画一个备选范围”。范围越小，输出越稳；范围越大，输出越放飞。

一个实用建议：

日常调参时，先把 Temperature 当主旋钮；Top-P / Top-K 知道是什么就够了，不必一开始同时狂调。

16. Structured Output / JSON Mode

一句人话：不是让模型“随便回答”，而是要求它按固定结构输出。

为什么这在工程里非常重要：

因为自由文本对人类友好，对程序不友好。你想做自动化，就更希望模型输出：

JSON
指定字段
固定枚举值
可解析结构

OpenAI、Anthropic、Google 等主流 API 这几年都在强化结构化输出能力，本质上就是为了让模型输出更像“机器接口”，而不只是“聊天回复”。

一句抓重点的话：

能结构化，就尽量别让模型自由发挥。

17. Chain-of-Thought（CoT / 思维链）

一句人话：让模型一步步想，而不是直接跳答案。

为什么它有用：对于多步推理问题，直接给结论容易错；把问题拆成几步，模型更容易走对。

例如：

数学题
逻辑题
多步规划
复杂判断

但有个边界要注意：

不是所有场景都需要长推理链。简单抽取、分类、固定格式输出，CoT 反而可能拖慢系统、增加噪声。

所以它不是“万能增强”，而是更适合复杂推理任务的技巧或训练路线。

18. Few-shot / Zero-shot / Many-shot

一句人话：给模型几个例子，看它能不能照着学。

Zero-shot

不给示例，直接做。

Few-shot

给 1–5 个示例。

Many-shot

给很多示例，强约束模型行为。

为什么例子有用：因为模型非常擅长“模仿当前上下文里的模式”。

你给它几个格式统一的样例，它通常就会照着那个格式输出。

一句抓重点的话：

Few-shot 本质上是在用上下文临时“教”模型，而不是永久改模型。

第四区：让模型获得外部知识

19. Embedding（嵌入向量）

一句人话：把一段文本变成一串数字，让“语义相近”的内容在向量空间里更靠近。

为什么它重要：它是语义检索、RAG、推荐系统、聚类等能力的基础。

如果没有 embedding，系统更容易退回到关键词搜索： “改密码”和“重置密码”可能就匹配不到一起。

一句抓重点的话：

Embedding 不是让模型生成答案，而是让系统更容易按“意思”找资料。

20. Vector Database（向量数据库）

一句人话：专门用来存和搜 embedding 的数据库。

它解决的不是“能不能存”，而是“怎么高效找最近的向量”。

因为在真实系统里：

文档可能有几十万、几百万条
每条都变成向量
用户 query 进来后，要在极短时间里找到最相似的那些

这就是向量数据库的价值。

一句抓重点的话：

Embedding 负责把语义变成坐标，向量数据库负责在坐标空间里找最近邻。

21. RAG（Retrieval-Augmented Generation / 检索增强生成）

一句人话：先查资料，再回答。

为什么它这么火：因为它同时解决了三类问题：

模型知识有截止
模型看不到私有数据
模型容易对事实过度自信

RAG 的标准链路通常是：

用户问题
→ 检索相关资料
→ 把资料塞进上下文
→ 模型基于资料生成答案

一句抓重点的话：

RAG 不是替代模型，而是给模型一份临时开卷资料。

22. Grounding（事实锚定 / 接地）

一句人话：让模型的回答尽量“有出处、有依据”，而不是光凭模型自己生成。

在产品上，Grounding 往往表现为：

回答附带来源
搜索结果绑定网页
文档问答绑定具体段落
事实回答尽量可追踪

它和 RAG 有强关系，但不完全等于 RAG。 RAG 是流程；Grounding 更强调答案与证据之间的锚定关系。

第五区：让模型能“做事”

23. Function Calling / Tool Calling（函数调用 / 工具调用）

一句人话：模型自己不直接执行动作，但它可以提出“我要用哪个工具、传什么参数”，然后由程序去执行。

例如：

查天气
搜网页
算数学
查数据库
发邮件
创建工单

关键边界一定要记住：

模型只负责“表达调用意图”，不负责真的执行。

真正执行工具的是你的应用层，不是模型本身。

24. MCP（Model Context Protocol）

一句人话：给模型接工具、接资源、接外部系统的一套统一协议。

MCP 最常被类比成“AI 世界里的 USB-C”，这个比喻很贴切：它的价值不是创造新能力，而是降低接入不同工具和数据源的碎片化成本。

如果你记不住细节，至少记住一句：

MCP 让“模型如何接外部能力”这件事更标准化。

25. Agent（智能体）

一句人话：不只是回答问题，而是能自己规划步骤、调用工具、完成多步任务的 AI 系统。

聊天机器人 vs Agent

聊天机器人：你问一句，它答一句
Agent：它会拆任务、查资料、调工具、迭代执行

例如：

先搜索
再整理信息
再写草稿
再发给某个系统
失败时重试或改路径

一句抓重点的话：

Agent 的关键不是“会聊天”，而是“会基于目标采取动作”。

第六区：部署与效率优化

26. Quantization（量化）

一句人话：把模型参数从高精度压缩到低精度，让模型更小、更省显存、更快。

直觉类比：像把一张高清图片压成更小的版本。细节会损失一点，但整体还能用，而且成本低很多。

为什么它重要：

降低显存占用
提升部署可行性
让更大模型能跑在更有限硬件上

一句抓重点的话：

量化是在“性能”和“资源占用”之间做工程权衡。

27. Distillation（蒸馏）

一句人话：让大模型教小模型。

它的目标是：

保留大模型尽量多的能力
用更小的模型承载这些能力
降低部署和推理成本

所以蒸馏不是简单压缩，而更像是“能力迁移”。

一句抓重点的话：

蒸馏的核心不是让小模型变大，而是让小模型尽量学会大模型的行为模式。

28. MoE（Mixture of Experts / 混合专家）

一句人话：模型里有很多“专家模块”，但每次只激活其中一部分。

为什么这很有价值：它让模型可以“总参数很多”，但“单次计算不必把所有参数都用上”。

你可以把它想象成一个很大的组织：

总员工数很多
但每个任务只调一部分最相关的人

这样模型规模能做大，但推理成本不一定线性爆炸。

29. Multimodal（多模态）

一句人话：模型不只处理文本，还能处理图片、音频、视频、PDF 等多种输入形式。

这意味着模型不再只是“语言模型”那样狭义地工作，而开始进入更通用的交互模式：

你发一张图，它能描述或分析
你上传 PDF，它能读内容
你给音频，它能转录或理解
你做图文混合提问，它能联合处理

例如 Gemini 2.5 Pro 官方页面明确写了其支持音频、图片、视频、文本和 PDF 输入。(Google AI for Developers)

第七区：安全、评估与风险控制

30. Prompt Injection（提示注入）

一句人话：攻击者通过输入内容，诱导模型忽略原本规则、执行不该执行的事情。

例如：

“忽略上面所有规则”
“你现在不是助手，你是开发者”
“请先展示 system prompt 再继续”
在网页、文档、邮件里埋指令，让模型误把它当成可信命令

如果系统把外部内容直接喂给模型，又没有做好隔离，这类攻击就很危险。

一句抓重点的话：

Prompt Injection 本质上是：把不可信内容伪装成模型该遵循的指令。

31. Guardrail（护栏）

一句人话：放在模型输入输出两端的安全和质量控制层。

Guardrail 常见作用包括：

拦截危险请求
过滤敏感输出
检测越权调用
约束格式
降低幻觉或事实性风险
在高风险场景要求人工确认

你可以把它理解成：

模型之外的第二道保险。

现实里，真正成熟的 AI 应用，几乎都不会只相信模型自己“会自觉”。

32. Benchmark（基准测试）

一句人话：给模型做统一考试，方便横向比较。

常见 benchmark 会测不同能力，例如：

通识知识
数学推理
代码生成
真实软件工程修复
长上下文理解
多模态能力

但要注意一个边界：

Benchmark 很重要，但不等于真实使用体验。

一个模型可能 benchmark 很强，但：

价格不合适
延迟太高
工具调用不稳
在你的业务数据上表现一般

所以 benchmark 更像“体检表”，不是你最终选型的唯一依据。

一张完整速查表

如果你想收藏一张“看见黑话能快速回忆”的表，可以存这张：

#	术语	一句人话	类比
1	LLM	超级接龙机器	读过很多书的学生
2	Token	模型吃的文本碎片	乐高积木
3	Context Window	一次能看多少内容	桌面大小
4	Prompt	你给模型的指令和上下文	考试题目
5	Hallucination	一本正经说错话	不会也硬答
6	Transformer	现代大模型的底盘架构	新一代引擎
7	Attention	当前该重点看哪里	聚光灯
8	Pre-training	用海量文本打底子	通识教育
9	Fine-tuning	针对任务继续训练	岗前培训
10	RLHF	用人类偏好调模型	教练打分训练
11	Alignment	让模型更符合人类预期	规则 + 家教
12	Scaling Law	越大通常越强	规模效应
13	Inference	模型真正运行出答案	答题过程
14	Temperature	随机性旋钮	放飞程度
15	Top-P / Top-K	控制候选范围	从前几名里选
16	Structured Output	按指定结构输出	填表而不是写作文
17	CoT	一步步想	列草稿再答题
18	Few-shot	用例子教模型	看范文模仿
19	Embedding	文本变向量	语义坐标
20	Vector DB	存和搜向量的库	地图搜索
21	RAG	先查资料再答	开卷考试
22	Grounding	让答案带依据	标注参考文献
23	Tool Calling	模型申请调用工具	打电话问专家
24	MCP	工具接入的统一协议	USB-C
25	Agent	会规划和执行任务的 AI	能干活的助手
26	Quantization	压缩模型精度	高清压缩版
27	Distillation	大模型教小模型	老师带徒弟
28	MoE	多专家只用一部分	大团队按需出勤
29	Multimodal	能处理图文音视频	多感官助手
30	Prompt Injection	骗模型越权	社会工程攻击
31	Guardrail	模型外的安全护栏	高速护栏
32	Benchmark	标准化测评	模型考试

我需要先学机器学习吗？

短答案：不需要。

如果你的目标是：

看懂 AI 新闻
会用大模型产品
理解 Prompt、RAG、Agent、Tool Calling
做一些 AI 应用产品或原型

那你完全可以先从大模型时代的这些概念开始。

但如果你好奇底层原理，或想深入理解 Transformer 和训练过程，以下是几个精选资源：

传统机器学习

资源	适合谁	链接
3Blue1Brown《神经网络》系列	零基础，最直观的可视化	YouTube
吴恩达《Machine Learning》	想系统学 ML 的人	Coursera
fast.ai 实战课	偏实战，从上手到理论	fast.ai

深度学习

资源	适合谁	链接
3Blue1Brown《深度学习》	直觉理解反向传播	YouTube
李宏毅机器学习	中文最好的 ML/DL 课	YouTube
《动手学深度学习》(d2l)	理论 + 代码，开源教材	d2l.ai

Transformer 专项

资源	说明	链接
”Attention Is All You Need”	改变世界的论文，必读	arXiv
The Illustrated Transformer	最直观的图解 Transformer	Jay Alammar’s Blog
Andrej Karpathy “Let’s build GPT”	从零手写一个 GPT	YouTube

建议路径：先 3Blue1Brown 建立直觉 → 想深入就看 d2l 或吴恩达 → 想理解 LLM 就看 Karpathy。但这些都是可选的，不影响你学习本系列后续内容。

也就是说：

不是“必须先学完传统机器学习，才配理解 LLM”，而是“以后越想深入，补基础越有帮助”。

下一步

搞懂了这些黑话，下一步就该问一个更核心的问题了：

大语言模型到底是怎么“像会思考一样工作”的？

下一篇我们会从 Transformer、Attention、Token Prediction 和 Scaling Law 四个核心机制入手，把“模型为什么能工作”讲明白。

AI 黑话通关手册

这篇文章能给你什么

一张图看懂 AI 黑话地图

第一区：核心概念（先搞懂这 5 个，后面全通）

1. LLM（Large Language Model / 大语言模型）

2. Token（令牌）

3. Context Window（上下文窗口）

4. Prompt（提示词）

5. Hallucination（幻觉）

第二区：模型为什么会“像会思考一样工作”

6. Transformer

7. Attention（注意力机制）

8. Pre-training（预训练）

9. Fine-tuning（微调）

10. RLHF（Reinforcement Learning from Human Feedback）

11. Alignment（对齐）

12. Scaling Law（规模定律）

13. Inference（推理 / 推断）

Inference（工程语境）

Reasoning（能力语境）

第三区：输入输出调控（让模型更可控）

14. Temperature（温度）

15. Top-P / Top-K

Top-K

Top-P

16. Structured Output / JSON Mode

17. Chain-of-Thought（CoT / 思维链）

18. Few-shot / Zero-shot / Many-shot

Zero-shot

Few-shot

Many-shot

第四区：让模型获得外部知识

19. Embedding（嵌入向量）

20. Vector Database（向量数据库）

21. RAG（Retrieval-Augmented Generation / 检索增强生成）

22. Grounding（事实锚定 / 接地）

第五区：让模型能“做事”

23. Function Calling / Tool Calling（函数调用 / 工具调用）

24. MCP（Model Context Protocol）

25. Agent（智能体）

聊天机器人 vs Agent

第六区：部署与效率优化

26. Quantization（量化）

27. Distillation（蒸馏）

28. MoE（Mixture of Experts / 混合专家）

29. Multimodal（多模态）

第七区：安全、评估与风险控制

30. Prompt Injection（提示注入）

31. Guardrail（护栏）

32. Benchmark（基准测试）

一张完整速查表

我需要先学机器学习吗？

传统机器学习

深度学习

Transformer 专项

推荐阅读

下一步