谷歌推出生成交互大模型Genie

行业动态
2024年3月4日
0
编辑

2月26日，谷歌Deep Mind团队发布基础世界模型Genie，一个虚拟生成的可交互环境，110亿参数，通过给模型投喂视频数据进行训练，生成照片、草图甚至可以操控的虚拟世界。

此次，谷歌另辟蹊径，发布的这款交互式世界生成模型Genie，引起了业内很高的关注度。业内人士对于谷歌在AI领域的发展期待又有所回升。

Genie是一个110亿参数的基础世界模型，在超过20万小时的二维（2D）游戏视频上进行训练，无需人工监督。这意味着Genie可以从视频中自行识别不同动作的特征和模式。其能学习各种角色的动作、控制和行动。

“只需要一张图片，Genie就可以创建一个全新的互动环境。”DeepMind表示，这为生成和进入虚拟世界打开了大门。例如可以采用最先进的文生图大模型来生成初始帧，然后用Genie赋予它们“生命”。

Genie的核心架构用了ST-Transformer（时空变换器）。这是一种结合了Transformer模型的自注意力机制与时空数据的特性，以有效处理视频、多传感器时间序列、交通流量等时空数据。ST-Transformer主要通过捕捉数据在时间和空间上的复杂依赖关系，提高了对时空序列的理解和预测能力，主要有3大模块组成。

视频分词器

这是一个基于VQ-VAE的模块,可将原始视频帧压缩成离散的记号表示,以降低维度并提高后续模块的视频生成质量。这个过程类似自然语言处理中的分词，将连续的视频帧序列分解为离散的视频片段。视频分词器使用了ST-transformer来对视频进行编码，并生成对应的视频标记。这些标记将作为后续动力学模型的输入，用于预测下一帧视频。

潜在动作模型

这是一个无监督学习模块,可从原始视频中推断出观察到的状态变化对应的潜在动作。并根据这些潜在动作实现对每一帧的控制。潜在动作模型通过对视频标记序列进行建模，学习到了不同帧之间的动作关系。

动力学模型

主要基于潜在动作模型学习到的动作关系，根据潜在动作和过去的帧标记预测下一帧的视频。可以把该模块看作是一个预测模型，通过学习视频序列的动态变化模式，能够生成逼真的连续视频。

LTX Studio：生成式AI电影制作平台，比Sora更专业更精准

2024-2-29 9:30:57

Anthropic官宣发布Claude 3 一举击败GPT-4

2024-3-5 9:40:36

相关推荐

TOP1

Gname域名0元注册活动详解
22小时前
TOP2

Grafana Loki与ELK全面对比
2025年7月11日
TOP3

1Panel在线安装教程
2025年7月10日
腾讯云服务器+宝塔面板搭建JumpServer开源堡垒机教程
2025年7月10日
一文带你了解AIO、GEO、SEO
2025年7月9日
华为云Flexus云服务器安装并运行Next Terminal教程
2025年7月8日