谷歌发布人工智能学习新模型RT-2 使机器人更加智能

7月29日，谷歌旗下的AI研究机构DeepMind发布了RT-2，这是一种新的视觉语言动作模型(VLA)。据悉，RT-2可以从互联网和机器人数据中自动学习，并将这些知识转化为机器人控制的通用指令实现一系列操作动作，同时在思维推理链加持下，RT-2 可执行深度语义推理。RT-2模型的主要应用场景是集成在实体机器人，使其可以像人类那样思考、推理去执行各种动作任务，就像实体机器人版ChatGPT。

RT-2

在技术原理方面，RT-2以VLM(高容量视觉语言模型)为基础，将一个或多个图像作为输入，并生成一系列通常代表自然语言文本的标记。此类 VLM已接受网络大规模数据的训练，以执行视觉问答、图像字幕或对象识别等任务。为了更好地控制机器人，必须训练其输出动作。DeepMind通过将操作表示为模型输出中的标记(类似于语言标记)来解决这一挑战，并将操作描述为可以由标准自然语言标记器处理的字符串。

DeepMind在RT-2使用与RT-1中相同的机器人动作离散版本，并表明将其转换为字符串表示，使得可以在机器人数据上训练VLM模型，所以此类模型的输入和输出空间不需要改变。DeepMind针对机器人和网络数据共同微调预先训练的VLM模型，生成的模型接收机器人摄像头图像，并直接预测机器人接下来要执行的动作。

在训练数据方面，DeepMind在RT-2模型上进行了一系列定性和定量实验，进行了6000多次机器人试验。在探索RT-2的新功能时，首先需要将网络规模数据的知识与机器人的经验相结合的任务，然后定义三类技能：符号理解、推理和人类识别。

每项任务都需要理解视觉语义概念以及执行机器人控制，以掌控操作这些动作的能力，从而要求机器人对数据集中，从未见过的物体或场景执行操作任务，将知识从基于网络的数据转化为可操作的实体动作。RT-2保留了机器人数据中看到的原始任务的能力，并提高了机器人在以前未见过的场景中的性能，从RT-1的32%提高到了62%，显示了大规模预训练的巨大优势。

此外，DeepMind受LLMs(大语言模型)思维链提示方法的启发，将机器人控制与思维链推理相结合，可在单个模型中学习长期规划和低级技能。尤其是，DeepMind对 RT-2 的变体进行了几百个梯度步骤的微调，提高其联合使用语言和动作的能力，具备理解自然语言的能力。