Embodied AI 与 Robotics：Gemini Robotics、V-JEPA 2 与世界模型

Embodied AI 与机器人：从会说话的模型到会动手的系统

flowchart LR
  A["语言/视觉模型"] --> B["世界理解"]
  B --> C["动作规划"]
  C --> D["机器人控制"]
  D --> E["真实世界反馈"]
  E --> B

过去几年我们一直在问“模型懂不懂世界”。机器人这条线把问题改得更诚实：它不只要说对，还要把杯子拿起来，不能捏碎，不能掉地上，还要在你突然打断时停下来。

出处与延伸阅读：

Google DeepMind: Gemini Robotics 1.5

Google DeepMind: Gemini Robotics brings AI into the physical world

Meta: V-JEPA 2 world model and physical reasoning benchmarks

V-JEPA 2 paper

DeepMind Genie / World Models

这篇文章会讲什么

083 World Models 讲了“可交互世界”为什么重要。这篇把视角放到机器人：当模型真的要在物理世界里行动，哪些能力才算有用，哪些还只是漂亮 demo。

我会尽量不把它写成“家用机器人马上来了”。这个赛道确实在加速，但离通用家政机器人还差几道硬坎。

先说结论

Embodied AI 是 Agent 的物理世界版本。语言、视觉、规划、工具调用都还在，但最后一步变成了真实动作
Gemini Robotics 1.5 是截至 2026-06-03 最值得跟的闭源信号之一。它强调多模态理解、动作输出、多 embodiment 泛化和自然语言交互
V-JEPA 2 代表另一条路线：先学世界模型，再用预测和规划去控制机器人
最大难点不是“听懂指令”，而是动作泛化、物理反馈、安全、数据和硬件成本
短期 ROI 在工业/仓储/实验室/特定家庭任务，不是无所不能的人形机器人
World Model 会成为关键模块。机器人需要在动手前“想象后果”，这和 083 是同一条线

1. Embodied AI 到底是什么

Embodied AI 可以简单理解成：

让 AI 在一个身体里感知、规划、行动，并从环境反馈中调整。

这个“身体”可以是：

机械臂
移动机器人
人形机器人
自动驾驶车辆
无人机
甚至一个能操作屏幕的 Computer Use Agent

严格说，073 Computer Use 也是一种弱 embodied：它的“身体”是鼠标、键盘和浏览器。机器人则把这个身体换成了真实电机、关节、夹爪、传感器。

区别在于，屏幕世界错了可以撤销；物理世界错了可能会撞坏东西。

2. Gemini Robotics 1.5 的意义

Google DeepMind 对 Gemini Robotics 1.5 的描述很直白：Gemini 原本能处理文本、图片、音频、视频；Robotics 版本加上了对物理空间的推理和动作输出。

它值得记录的点有几个：

2.1 多 embodiment

同一个模型适配不同机器人形态：双臂平台、Franka、ALOHA、人形机器人等。这个方向很重要，因为机器人行业最大的问题之一就是数据碎片化。

如果每台机器人都要从头训，通用机器人永远做不起来。

2.2 自然语言可打断

机器人不只是执行一串固定脚本，而是能听懂日常指令，并在执行中被人打断或重定向。

这听起来像产品小细节，其实是走向真实环境的必要条件。现实里人不会把任务一次说完整，也不会总在安全位置发号施令。

2.3 Thinking before acting

DeepMind 特别强调“行动前思考”。对机器人来说，这不是文案，而是安全问题。

拿一个杯子前，机器人最好先判断：

杯子是不是易碎
旁边有没有障碍物
夹爪从哪个角度接近
失败后怎么停

语言模型里的“推理”到了机器人这里，变成了动作前的风险评估。

3. V-JEPA 2：另一条更像“世界模型”的路线

Meta 的 V-JEPA 2 路线不太像“让大语言模型直接控制机器人”，它更像在做一个能理解物理世界的视频世界模型。

它的思路是：

从大量视频中学习世界怎么变化
学会预测动作会带来什么后果
用预测结果做规划
再把规划转成机器人动作

Meta 公开信息里一个关键点是：V-JEPA 2 主要通过视频做自监督学习，再用少量机器人数据做动作条件训练。这个方向很现实，因为机器人数据贵，视频数据便宜得多。

如果这条路走通，机器人不需要每个动作都靠真实试错，而是可以先在模型里“想一下”。

这和 083 World Models 的关系很直接：一个真正能行动的 Agent，需要一个能预测后果的内部世界模型。

4. 为什么机器人比聊天 Agent 难很多

4.1 物理世界没有标准接口

网页有 DOM，API 有 schema，代码有测试。现实世界没有统一接口。

同一个“把苹果放进碗里”，会因为桌面高度、光线、苹果形状、碗的位置、夹爪状态不同而变成不同任务。

4.2 错误不可轻易回滚

聊天答错可以改，代码改错可以 revert，机器人抓错东西可能已经摔了。

所以机器人 Agent 的 verifier 不只是“任务完成了吗”，还要问：

有没有碰撞
有没有过大力矩
有没有进入人类危险区域
有没有异常停机

4.3 数据贵，而且长尾巨大

互联网文本可以大规模爬，机器人动作数据不行。每一种硬件、每一种环境、每一种物体，都有长尾。

这也是为什么多 embodiment、仿真、world model、sim2real 变得关键。

4.4 安全责任更重

100 Agent 安全与权限模型讲的是数字系统里的权限。机器人还要加上物理安全：

速度限制
力矩限制
人体接近检测
紧急停止
工作区边界
硬件级 failsafe

这些不能只交给模型。

5. 哪些场景会先落地

我会把短期场景分成三类。

5.1 工业与仓储

这里最现实，因为环境可控，ROI 清楚：

分拣
上下料
盘点
简单包装
质检辅助

难点是集成成本和稳定性，但比开放家庭环境简单太多。

5.2 实验室自动化

082 AI for Science 里提到科学 Agent。机器人一旦进入实验室，价值会非常直接：

配液
样本转移
重复实验
仪器操作
数据记录

这里的任务重复、流程清晰、错误代价可管理，是很适合 Agent + Robotics 的区域。

5.3 家庭里的窄任务

通用家政机器人还早，但窄任务会先出现：

收拾桌面
把物品放到指定区域
简单厨房准备
折叠固定形态物品
取放药盒/水杯

家庭最大的问题是环境太乱。产品化会先从“少数可控动作”开始，而不是“全能管家”。

6. 和 AI 浏览器 / Computer Use 的相似处

084 AI 浏览器和 Computer Use 其实给机器人提供了一个低风险实验场。

两者共同点是：

都要看环境
都要规划动作
都要执行
都要根据反馈调整
都会遇到 prompt injection / 错误恢复 / 权限边界

区别是：

浏览器错了，多数能回滚
机器人错了，可能产生物理损坏

所以很多 Agent Runtime、权限、评测方法会先在数字世界成熟，再迁移到机器人世界。

7. 现在最值得记录的研究问题

问题	为什么重要
多 embodiment 泛化	不同硬件能否共享能力
少量机器人数据学习	真实数据太贵
World Model 规划	动作前预测后果
Sim2Real	仿真训练如何迁移到现实
长程任务分解	从“拿杯子”到“做早餐”
安全约束融合	模型规划 + 控制器安全
人类打断与协作	真实场景里人会随时介入
物理 eval	怎么客观评估机器人完成度

这几个问题不解决，通用机器人会一直停在 demo 阶段。

7.1 物理 Agent 应该怎么评估

机器人评测不能只看“任务是否完成”。一个机器人把杯子放到桌上，如果过程中撞到人、把桌面其他东西扫下去，或者靠 10 次失败才成功，在真实产品里都不能算好。

更合理的评估至少要拆成几层：

维度	看什么
任务成功率	目标物体是否到位、状态是否正确
安全性	碰撞、过大力矩、进入禁区、急停次数
泛化	换物体、换光线、换桌面高度后是否还能做
恢复能力	抓空、滑落、被人打断后能不能重新规划
人类协作	能不能解释动作、接受纠正、暂停等待
成本	单次任务耗时、能耗、硬件磨损、人工介入次数

这也是机器人和网页 Agent 最大的不同：网页 Agent 可以用“最终状态对不对”做主要指标，物理 Agent 必须把过程也算进去。

8. 几个别急着相信的判断

8.1 “人形机器人就是终局”

不一定。人形适合人类环境，但不是所有任务都需要人形。工业机械臂、移动底盘、专用夹爪可能更快产生价值。

8.2 “语言模型强了，机器人自然就强”

语言理解只是其中一块。控制、感知、反馈、安全、硬件耐久性都很难。

8.3 “仿真可以替代真实数据”

仿真很重要，但 reality gap 仍然存在。真正上线前，真实环境数据和测试少不了。

8.4 “家庭机器人马上规模化”

我不这么看。家庭环境太开放，售后和安全成本太高。更可能先在可控场景里规模化，再慢慢进入家庭。

小结

Embodied AI 值得记录，不是因为“机器人马上替代人类”，而是因为它把 AI 的几个核心问题都推到了最硬的地方：

模型到底懂不懂世界
Agent 能不能规划动作
World Model 能不能预测后果
安全能不能落到物理层
数据和硬件能不能支撑泛化

聊天模型可以靠语言掩盖很多不确定性。机器人不行。它要把动作做出来。

也正因为这样，机器人会成为检验 AI 是否真正理解物理世界的一条重要路线。它不会最快商业化，但它会很诚实。