Embodied AI 与机器人:从会说话的模型到会动手的系统
flowchart LR
A["语言/视觉模型"] --> B["世界理解"]
B --> C["动作规划"]
C --> D["机器人控制"]
D --> E["真实世界反馈"]
E --> B
过去几年我们一直在问“模型懂不懂世界”。机器人这条线把问题改得更诚实:它不只要说对,还要把杯子拿起来,不能捏碎,不能掉地上,还要在你突然打断时停下来。
出处与延伸阅读:
这篇文章会讲什么
083 World Models 讲了“可交互世界”为什么重要。这篇把视角放到机器人:当模型真的要在物理世界里行动,哪些能力才算有用,哪些还只是漂亮 demo。
我会尽量不把它写成“家用机器人马上来了”。这个赛道确实在加速,但离通用家政机器人还差几道硬坎。
先说结论
- Embodied AI 是 Agent 的物理世界版本。语言、视觉、规划、工具调用都还在,但最后一步变成了真实动作
- Gemini Robotics 1.5 是截至 2026-06-03 最值得跟的闭源信号之一。它强调多模态理解、动作输出、多 embodiment 泛化和自然语言交互
- V-JEPA 2 代表另一条路线:先学世界模型,再用预测和规划去控制机器人
- 最大难点不是“听懂指令”,而是动作泛化、物理反馈、安全、数据和硬件成本
- 短期 ROI 在工业/仓储/实验室/特定家庭任务,不是无所不能的人形机器人
- World Model 会成为关键模块。机器人需要在动手前“想象后果”,这和 083 是同一条线
1. Embodied AI 到底是什么
Embodied AI 可以简单理解成:
让 AI 在一个身体里感知、规划、行动,并从环境反馈中调整。
这个“身体”可以是:
- 机械臂
- 移动机器人
- 人形机器人
- 自动驾驶车辆
- 无人机
- 甚至一个能操作屏幕的 Computer Use Agent
严格说,073 Computer Use 也是一种弱 embodied:它的“身体”是鼠标、键盘和浏览器。机器人则把这个身体换成了真实电机、关节、夹爪、传感器。
区别在于,屏幕世界错了可以撤销;物理世界错了可能会撞坏东西。
2. Gemini Robotics 1.5 的意义
Google DeepMind 对 Gemini Robotics 1.5 的描述很直白:Gemini 原本能处理文本、图片、音频、视频;Robotics 版本加上了对物理空间的推理和动作输出。
它值得记录的点有几个:
2.1 多 embodiment
同一个模型适配不同机器人形态:双臂平台、Franka、ALOHA、人形机器人等。这个方向很重要,因为机器人行业最大的问题之一就是数据碎片化。
如果每台机器人都要从头训,通用机器人永远做不起来。
2.2 自然语言可打断
机器人不只是执行一串固定脚本,而是能听懂日常指令,并在执行中被人打断或重定向。
这听起来像产品小细节,其实是走向真实环境的必要条件。现实里人不会把任务一次说完整,也不会总在安全位置发号施令。
2.3 Thinking before acting
DeepMind 特别强调“行动前思考”。对机器人来说,这不是文案,而是安全问题。
拿一个杯子前,机器人最好先判断:
- 杯子是不是易碎
- 旁边有没有障碍物
- 夹爪从哪个角度接近
- 失败后怎么停
语言模型里的“推理”到了机器人这里,变成了动作前的风险评估。
3. V-JEPA 2:另一条更像“世界模型”的路线
Meta 的 V-JEPA 2 路线不太像“让大语言模型直接控制机器人”,它更像在做一个能理解物理世界的视频世界模型。
它的思路是:
- 从大量视频中学习世界怎么变化
- 学会预测动作会带来什么后果
- 用预测结果做规划
- 再把规划转成机器人动作
Meta 公开信息里一个关键点是:V-JEPA 2 主要通过视频做自监督学习,再用少量机器人数据做动作条件训练。这个方向很现实,因为机器人数据贵,视频数据便宜得多。
如果这条路走通,机器人不需要每个动作都靠真实试错,而是可以先在模型里“想一下”。
这和 083 World Models 的关系很直接:一个真正能行动的 Agent,需要一个能预测后果的内部世界模型。
4. 为什么机器人比聊天 Agent 难很多
4.1 物理世界没有标准接口
网页有 DOM,API 有 schema,代码有测试。现实世界没有统一接口。
同一个“把苹果放进碗里”,会因为桌面高度、光线、苹果形状、碗的位置、夹爪状态不同而变成不同任务。
4.2 错误不可轻易回滚
聊天答错可以改,代码改错可以 revert,机器人抓错东西可能已经摔了。
所以机器人 Agent 的 verifier 不只是“任务完成了吗”,还要问:
- 有没有碰撞
- 有没有过大力矩
- 有没有进入人类危险区域
- 有没有异常停机
4.3 数据贵,而且长尾巨大
互联网文本可以大规模爬,机器人动作数据不行。每一种硬件、每一种环境、每一种物体,都有长尾。
这也是为什么多 embodiment、仿真、world model、sim2real 变得关键。
4.4 安全责任更重
100 Agent 安全与权限模型 讲的是数字系统里的权限。机器人还要加上物理安全:
- 速度限制
- 力矩限制
- 人体接近检测
- 紧急停止
- 工作区边界
- 硬件级 failsafe
这些不能只交给模型。
5. 哪些场景会先落地
我会把短期场景分成三类。
5.1 工业与仓储
这里最现实,因为环境可控,ROI 清楚:
- 分拣
- 上下料
- 盘点
- 简单包装
- 质检辅助
难点是集成成本和稳定性,但比开放家庭环境简单太多。
5.2 实验室自动化
082 AI for Science 里提到科学 Agent。机器人一旦进入实验室,价值会非常直接:
- 配液
- 样本转移
- 重复实验
- 仪器操作
- 数据记录
这里的任务重复、流程清晰、错误代价可管理,是很适合 Agent + Robotics 的区域。
5.3 家庭里的窄任务
通用家政机器人还早,但窄任务会先出现:
- 收拾桌面
- 把物品放到指定区域
- 简单厨房准备
- 折叠固定形态物品
- 取放药盒/水杯
家庭最大的问题是环境太乱。产品化会先从“少数可控动作”开始,而不是“全能管家”。
6. 和 AI 浏览器 / Computer Use 的相似处
084 AI 浏览器 和 Computer Use 其实给机器人提供了一个低风险实验场。
两者共同点是:
- 都要看环境
- 都要规划动作
- 都要执行
- 都要根据反馈调整
- 都会遇到 prompt injection / 错误恢复 / 权限边界
区别是:
- 浏览器错了,多数能回滚
- 机器人错了,可能产生物理损坏
所以很多 Agent Runtime、权限、评测方法会先在数字世界成熟,再迁移到机器人世界。
7. 现在最值得记录的研究问题
| 问题 | 为什么重要 |
|---|---|
| 多 embodiment 泛化 | 不同硬件能否共享能力 |
| 少量机器人数据学习 | 真实数据太贵 |
| World Model 规划 | 动作前预测后果 |
| Sim2Real | 仿真训练如何迁移到现实 |
| 长程任务分解 | 从“拿杯子”到“做早餐” |
| 安全约束融合 | 模型规划 + 控制器安全 |
| 人类打断与协作 | 真实场景里人会随时介入 |
| 物理 eval | 怎么客观评估机器人完成度 |
这几个问题不解决,通用机器人会一直停在 demo 阶段。
7.1 物理 Agent 应该怎么评估
机器人评测不能只看“任务是否完成”。一个机器人把杯子放到桌上,如果过程中撞到人、把桌面其他东西扫下去,或者靠 10 次失败才成功,在真实产品里都不能算好。
更合理的评估至少要拆成几层:
| 维度 | 看什么 |
|---|---|
| 任务成功率 | 目标物体是否到位、状态是否正确 |
| 安全性 | 碰撞、过大力矩、进入禁区、急停次数 |
| 泛化 | 换物体、换光线、换桌面高度后是否还能做 |
| 恢复能力 | 抓空、滑落、被人打断后能不能重新规划 |
| 人类协作 | 能不能解释动作、接受纠正、暂停等待 |
| 成本 | 单次任务耗时、能耗、硬件磨损、人工介入次数 |
这也是机器人和网页 Agent 最大的不同:网页 Agent 可以用“最终状态对不对”做主要指标,物理 Agent 必须把过程也算进去。
8. 几个别急着相信的判断
8.1 “人形机器人就是终局”
不一定。人形适合人类环境,但不是所有任务都需要人形。工业机械臂、移动底盘、专用夹爪可能更快产生价值。
8.2 “语言模型强了,机器人自然就强”
语言理解只是其中一块。控制、感知、反馈、安全、硬件耐久性都很难。
8.3 “仿真可以替代真实数据”
仿真很重要,但 reality gap 仍然存在。真正上线前,真实环境数据和测试少不了。
8.4 “家庭机器人马上规模化”
我不这么看。家庭环境太开放,售后和安全成本太高。更可能先在可控场景里规模化,再慢慢进入家庭。
小结
Embodied AI 值得记录,不是因为“机器人马上替代人类”,而是因为它把 AI 的几个核心问题都推到了最硬的地方:
- 模型到底懂不懂世界
- Agent 能不能规划动作
- World Model 能不能预测后果
- 安全能不能落到物理层
- 数据和硬件能不能支撑泛化
聊天模型可以靠语言掩盖很多不确定性。机器人不行。它要把动作做出来。
也正因为这样,机器人会成为检验 AI 是否真正理解物理世界的一条重要路线。它不会最快商业化,但它会很诚实。