可文字可图片可视频的多模态大世界模型火爆上线

Sora的爆火，也使得人们对于大模型的探索愈演愈烈。他们深知未来主流模型一定是文本+音频+图像+视频的多模态模型，当然这其中的挑战也是非常大的。为了应对这些挑战，加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型（Large World Model，简称“LWM”）。

Large World Model(LWM)是一个通用的大环境多模态自回归模型，它利用了一个技术名为RingAttention，通过在大型的多样化视频和图书数据集上的训练，实现了对语言、图像和视频的理解与生成能力。

与前不久谷歌发布的Gemini 1.5一样，LWM可以一次性精准解答100万tokens的视频、文本。此外，LWM可以精准检索100万tokens文本中的内容，同时与Sora一样具备文本生成视频、图像的能力。整体性能非常强悍，目前在github获得超6000颗星，有纯文本、视频、图像等多个版本模型可使用。

在传统的注意力机制中，例如，Transformer架构中使用的自注意力，模型需要计算序列中每个元素对于其他所有元素的注意力得分，这就会面临两大难题--内存需求上升和计算复杂度。

LWM的核心技术是通过Ring Attention（环形注意力）在长序列上进行扩展训练，并使用Books3数据集从32000扩展到100万标记，而无需消耗额外的内存、算力并降低计算复杂度。尽管Ring Attention减少了每个片段的直接交互范围，但仍然允许信息在序列中传递，保持了模型对长距离依赖的捕捉能力，减少了长序列的处理损失度。这也是LWM能处理高达100万tokens数据的原因之一。

Ring Attention主要功能：