谷歌的 RT-2，是不是机器人的 GPT-3 时刻？

作者 | Li Yuan
编辑 | 郑玄

7 月 29 日，《纽约时报》的记者在谷歌实验室，率先看到了谷歌最新推出的 RT-2 模型驱动的机器人。

一个单臂机器人站在一张桌子前。桌子上坐着三个塑料雕像：狮子、鲸鱼和恐龙。工程师给机器人发出指令：「捡起灭绝的动物。」机器人呼呼地响了一会儿，然后手臂伸出，爪子张开落下。它抓住了恐龙。
这是一道智能的闪光。
《纽约时报》描述道，「直到上周，这一演示还是不可能的。机器人无法可靠地操纵它们以前从未见过的物体，它们当然也无法实现从「灭绝的动物」到「塑料恐龙」的逻辑飞跃。」
虽然仍然存在于展示之中，且谷歌并不打算立即进行更大规模的发布或者对其进行商业化，但这一展示已经足以展现大模型为机器人能够带来的机遇的一角。
在大模型时代到来之前，人们训练机器人，通常针对每个任务进行优化，比如抓取某种玩具，需要足量的数据，机器人才能准确地从各个角度、各个光线下识别这种玩具，抓取成功。而让机器人意识到自己有抓取玩具的任务，也需要对机器人进行编程才能解决。
而大模型的智能和泛化能力，让人们看到了解决这些问题，走向通用机器人的一道曙光。

将 Transformer

运用到机器人中

谷歌新的 RT-2 模型，全称为 Robotic Transformer 2，运用 Transformer 架构作为其模型的基座。
2018 年被提出的 Transformer 架构，是目前火遍全球的大语言模型（LLM）的最底层的基座，但事实上，作为一种架构，Transformer 不止可以应用于大语言模型当中，也可以用于训练其他类型的数据。早在今年 3 月份，谷歌就发布了 PaLM-E，是当时世界上最大视觉语言模型（VLM）。
大语言模型中，语言被编码为向量，人们为模型提供大量的语料，使其能够预测出人类通常下一句会说什么，借此生成语言回答。
而在视觉语言模型中，模型可以将图像信息编码为与语言类似的向量，让模型既能「理解」文字，又能用相同方式「理解」图像。而研究员们为视觉语言模型提供大量的语料和图像，使其能够执行视觉问答、为图像添加字幕和物品识别等任务。
无论是图像还是语言，都是相对容易大量获取的数据。因此，模型很容易取得令人惊艳的成果。
而想使用 Transformer 架构来生成机器人行为，却有一个很大的难点。「涉及到机器人动作的数据非常昂贵。」清华大学交叉信息研究院助理教授许华哲教授告诉极客公园，「视觉和语言数据都来自于人类，是被动数据，而机器人的动作数据，全部是来自于机器人的主动数据。
比如我想研究机器人倒咖啡的动作，不管是写代码让机器人执行，还是利用其他的方式让机器人执行，都是需要机器人实际执行一遍这个操作才能得到这个数据。因此，机器人的数据与语言和图片的规模和量级是完全不一样的。」
在谷歌研究的第一代机器人 Transformer 模型 RT-1 中，谷歌第一次开启了这样的挑战，尝试建立一个视觉语言动作模型。
为了建立这样的模型，谷歌使用了 13 个机器人，在一个搭建的厨房环境中耗时 17 个月收集到了机器人在 700 多个任务上的主动数据组建的数据集。
数据集同时记录了三个维度：