Google新版机器人有何突破？

99ANYc3cd6 机器人 2026-01-03 26

谷歌最新的机器人项目叫做 RT-2 (Robotics Transformer 2)，它不是一个实体机器人，而是一个“机器人大脑”，一个能将网络规模的知识转化为机器人行动的AI模型。

（图片来源网络，侵删）

核心亮点：RT-2 是什么？

RT-2 是谷歌继 RT-1 之后推出的下一代机器人模型，它的革命性在于：

统一的语言： 它不再需要为每个机器人动作编写复杂的代码，RT-2 使用与大型语言模型（如 GPT）相同的“语言”——词汇表，这个词汇表包含了数百万个单词、概念和指令。
知识迁移： 这是 RT-2 最核心的突破，它通过在互联网规模的文本和图像数据上进行训练，学会了海量的常识性知识，它知道“香蕉”是黄色的、可以剥皮、可以吃。
指令到行动： 当你对机器人说“把那个绿色的水果拿给我”时，RT-2 能够：
- 理解指令： 解析“绿色”、“水果”、“拿给我”这些概念。
- 识别物体： 在环境中找到绿色的物体，并根据其形状判断是水果（比如青苹果）。
- 执行动作： 将“拿给我”这个概念转化为具体的机器人手臂抓取和移动动作。

一句话总结：RT-2 让机器人第一次能够“读懂”互联网上的海量知识，并将其应用到物理世界的任务中。

RT-1 (上一代): 主要在机器人自己的数据上进行训练，它擅长执行在训练数据中见过的特定任务，拿起红色方块”，但如果给它一个新指令，拿起红色方块并放到蓝色盒子里”，它可能会失败，因为它没有学过这个组合动作，它像一个“专科医生”，只会固定的几项手术。
RT-2 (新一代): 在互联网规模的视觉和语言数据上进行训练，它学习了“红色”、“方块”、“盒子”、“放”等概念之间的关联，即使没见过“把红色方块放到蓝色盒子里”这个具体任务，它也能理解并执行，它像一个“全科医生”，可以根据基本常识解决各种新问题。

RT-2 的本质是一个大型多模态模型，其架构可以简化为：

视觉输入 (摄像头画面) + 语言输入 (语音/文字指令) → RT-2 模型 → 动作输出 (机器人关节指令)

（图片来源网络，侵删）

它将机器人的感知（视觉）、理解（语言）和行动（动作）统一到了一个 Transformer 模型中。

这是 RT-2 的巧妙设计，为了让模型输出能被机器人理解，谷歌创建了一个特殊的词汇表，它包含：

模型的目标就是根据输入,预测出下一个最合适的“动作标记”序列。

谷歌通过一个名为 RT-X 的大规模机器人研究项目来收集和训练数据，RT-2 的能力在多种谷歌机器人原型上得到了验证，包括手臂机器人和移动机器人。

（图片来源网络，侵删）

它能做到：

尽管 RT-2 非常强大，但它仍处于早期阶段，存在明显挑战：

物理世界的“具身”鸿沟： 机器人学到的知识来自互联网（2D图像和文本），但需要在3D物理世界中执行，这之间存在巨大差距，模型可能知道“杯子”这个词，但无法精确抓握一个形状不规则的杯子，因为它缺乏精细的触觉和物理反馈。
安全性和可靠性： 在家庭或工厂等复杂环境中，机器人必须绝对安全，RT-2 仍可能做出错误判断，比如抓取不稳导致物品掉落，甚至造成危险。
泛化能力有限： 虽然比 RT-1 强大，但 RT-2 在模拟环境中的表现远优于在真实物理世界中的表现，它对环境的微小变化（如光照、物体位置）仍然敏感。
成本和计算： 训练和运行这样的模型需要巨大的计算资源，目前还无法普及到消费级产品。

RT-2 是机器人领域一个里程碑式的项目，它标志着机器人学正在从“编程驱动”向“数据驱动”和“AI驱动”转变。

加速机器人应用： 训练新机器人或将机器人部署到新任务，可能不再需要耗费大量时间编写代码，而是通过提供新的数据集来“微调”AI模型即可。
通用机器人的雏形： RT-2 是朝着构建能够执行多样化、开放式任务的通用机器人迈出的重要一步，未来的机器人可能不再是只能在流水线上重复单一动作的“机器”，而是能理解人类意图、在复杂环境中灵活协作的“伙伴”。
与谷歌其他产品的协同： 这项技术与谷歌的 Gemini (多模态大模型) 项目紧密相连，一个由 Gemini 驱动的、更强大的“大脑”可能会赋予机器人更高级的推理和规划能力。

谷歌的 RT-2 机器人项目并非一个具体的消费产品，而是其人工智能技术在物理世界落地的核心引擎，它正在为下一代更智能、更通用的机器人奠定坚实的基础。