谷歌推出生成交互大模型Genie

2月26日,谷歌Deep Mind团队发布基础世界模型Genie,一个虚拟生成的可交互环境,110亿参数,通过给模型投喂视频数据进行训练,生成照片、草图甚至可以操控的虚拟世界。

此次,谷歌另辟蹊径,发布的这款交互式世界生成模型Genie,引起了业内很高的关注度。业内人士对于谷歌在AI领域的发展期待又有所回升。

Genie是一个110亿参数的基础世界模型,在超过20万小时的二维(2D)游戏视频上进行训练,无需人工监督。这意味着Genie可以从视频中自行识别不同动作的特征和模式。其能学习各种角色的动作、控制和行动。

“只需要一张图片,Genie就可以创建一个全新的互动环境。”DeepMind表示,这为生成和进入虚拟世界打开了大门。例如可以采用最先进的文生图大模型来生成初始帧,然后用Genie赋予它们“生命”。

Genie的核心架构用了ST-Transformer(时空变换器)。这是一种结合了Transformer模型的自注意力机制与时空数据的特性,以有效处理视频、多传感器时间序列、交通流量等时空数据。ST-Transformer主要通过捕捉数据在时间和空间上的复杂依赖关系,提高了对时空序列的理解和预测能力,主要有3大模块组成。

  • 视频分词器

这是一个基于VQ-VAE的模块,可将原始视频帧压缩成离散的记号表示,以降低维度并提高后续模块的视频生成质量。这个过程类似自然语言处理中的分词,将连续的视频帧序列分解为离散的视频片段。视频分词器使用了ST-transformer来对视频进行编码,并生成对应的视频标记。这些标记将作为后续动力学模型的输入,用于预测下一帧视频。

  • 潜在动作模型

这是一个无监督学习模块,可从原始视频中推断出观察到的状态变化对应的潜在动作。并根据这些潜在动作实现对每一帧的控制。潜在动作模型通过对视频标记序列进行建模,学习到了不同帧之间的动作关系。

  • 动力学模型

主要基于潜在动作模型学习到的动作关系,根据潜在动作和过去的帧标记预测下一帧的视频。可以把该模块看作是一个预测模型,通过学习视频序列的动态变化模式,能够生成逼真的连续视频。

行业动态

LTX Studio:生成式AI电影制作平台,比Sora更专业更精准

2024-2-29 9:30:57

行业动态

Anthropic官宣发布Claude 3 一举击败GPT-4

2024-3-5 9:40:36

相关推荐