谷歌最新的机器人项目叫做 RT-2 (Robotics Transformer 2),它不是一个实体机器人,而是一个“机器人大脑”,一个能将网络规模的知识转化为机器人行动的AI模型。

核心亮点:RT-2 是什么?
RT-2 是谷歌继 RT-1 之后推出的下一代机器人模型,它的革命性在于:
- 统一的语言: 它不再需要为每个机器人动作编写复杂的代码,RT-2 使用与大型语言模型(如 GPT)相同的“语言”——词汇表,这个词汇表包含了数百万个单词、概念和指令。
- 知识迁移: 这是 RT-2 最核心的突破,它通过在互联网规模的文本和图像数据上进行训练,学会了海量的常识性知识,它知道“香蕉”是黄色的、可以剥皮、可以吃。
- 指令到行动: 当你对机器人说“把那个绿色的水果拿给我”时,RT-2 能够:
- 理解指令: 解析“绿色”、“水果”、“拿给我”这些概念。
- 识别物体: 在环境中找到绿色的物体,并根据其形状判断是水果(比如青苹果)。
- 执行动作: 将“拿给我”这个概念转化为具体的机器人手臂抓取和移动动作。
一句话总结:RT-2 让机器人第一次能够“读懂”互联网上的海量知识,并将其应用到物理世界的任务中。
RT-2 的关键技术与创新
从 RT-1 到 RT-2 的飞跃
- RT-1 (上一代): 主要在机器人自己的数据上进行训练,它擅长执行在训练数据中见过的特定任务,拿起红色方块”,但如果给它一个新指令,拿起红色方块并放到蓝色盒子里”,它可能会失败,因为它没有学过这个组合动作,它像一个“专科医生”,只会固定的几项手术。
- RT-2 (新一代): 在互联网规模的视觉和语言数据上进行训练,它学习了“红色”、“方块”、“盒子”、“放”等概念之间的关联,即使没见过“把红色方块放到蓝色盒子里”这个具体任务,它也能理解并执行,它像一个“全科医生”,可以根据基本常识解决各种新问题。
模型架构:视觉-语言-动作
RT-2 的本质是一个大型多模态模型,其架构可以简化为:
视觉输入 (摄像头画面) + 语言输入 (语音/文字指令) → RT-2 模型 → 动作输出 (机器人关节指令)

它将机器人的感知(视觉)、理解(语言)和行动(动作)统一到了一个 Transformer 模型中。
“机器人词汇表” (Robotics Vocab)
这是 RT-2 的巧妙设计,为了让模型输出能被机器人理解,谷歌创建了一个特殊的词汇表,它包含:
- 视觉标记: 代表图像中的物体和概念(如“猫”、“键盘”、“杯子”)。
- 语言标记: 代表自然语言中的单词和短语(如“捡起”、“移动”、“打开”)。
- 动作标记: 代表机器人的具体动作(如“关节1旋转30度”、“夹爪闭合”)。
模型的目标就是根据输入,预测出下一个最合适的“动作标记”序列。
RT-2 的实际能力与演示
谷歌通过一个名为 RT-X 的大规模机器人研究项目来收集和训练数据,RT-2 的能力在多种谷歌机器人原型上得到了验证,包括手臂机器人和移动机器人。

它能做到:
- 遵循自然语言指令: “把垃圾捡起来扔进垃圾桶”、“把薯片递给我”。
- 处理抽象和模糊指令: “给我一些吃的东西”(它会去寻找并拿起桌上的零食)。
- 识别未见过的物体: 即使训练数据中没有某个特定物体,只要它符合学过的概念(如“红色”、“圆形”),机器人也能正确识别和操作。
- 进行常识推理: 比如看到桌子上洒了水,可能会主动去拿纸巾擦拭(这取决于具体指令,但展示了其推理潜力)。
挑战与局限性
尽管 RT-2 非常强大,但它仍处于早期阶段,存在明显挑战:
- 物理世界的“具身”鸿沟: 机器人学到的知识来自互联网(2D图像和文本),但需要在3D物理世界中执行,这之间存在巨大差距,模型可能知道“杯子”这个词,但无法精确抓握一个形状不规则的杯子,因为它缺乏精细的触觉和物理反馈。
- 安全性和可靠性: 在家庭或工厂等复杂环境中,机器人必须绝对安全,RT-2 仍可能做出错误判断,比如抓取不稳导致物品掉落,甚至造成危险。
- 泛化能力有限: 虽然比 RT-1 强大,但 RT-2 在模拟环境中的表现远优于在真实物理世界中的表现,它对环境的微小变化(如光照、物体位置)仍然敏感。
- 成本和计算: 训练和运行这样的模型需要巨大的计算资源,目前还无法普及到消费级产品。
未来展望与意义
RT-2 是机器人领域一个里程碑式的项目,它标志着机器人学正在从“编程驱动”向“数据驱动”和“AI驱动”转变。
- 加速机器人应用: 训练新机器人或将机器人部署到新任务,可能不再需要耗费大量时间编写代码,而是通过提供新的数据集来“微调”AI模型即可。
- 通用机器人的雏形: RT-2 是朝着构建能够执行多样化、开放式任务的通用机器人迈出的重要一步,未来的机器人可能不再是只能在流水线上重复单一动作的“机器”,而是能理解人类意图、在复杂环境中灵活协作的“伙伴”。
- 与谷歌其他产品的协同: 这项技术与谷歌的 Gemini (多模态大模型) 项目紧密相连,一个由 Gemini 驱动的、更强大的“大脑”可能会赋予机器人更高级的推理和规划能力。
谷歌的 RT-2 机器人项目并非一个具体的消费产品,而是其人工智能技术在物理世界落地的核心引擎,它正在为下一代更智能、更通用的机器人奠定坚实的基础。
标签: Google新版机器人技术突破 Google最新机器人功能亮点 Google机器人AI能力升级