可文字可图片可视频的多模态大世界模型火爆上线

Sora的爆火,也使得人们对于大模型的探索愈演愈烈。他们深知未来主流模型一定是文本+音频+图像+视频的多模态模型,当然这其中的挑战也是非常大的。为了应对这些挑战,加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。

Large World Model(LWM)是一个通用的大环境多模态自回归模型,它利用了一个技术名为RingAttention,通过在大型的多样化视频和图书数据集上的训练,实现了对语言、图像和视频的理解与生成能力。

与前不久谷歌发布的Gemini 1.5一样,LWM可以一次性精准解答100万tokens的视频、文本。此外,LWM可以精准检索100万tokens文本中的内容,同时与Sora一样具备文本生成视频、图像的能力。整体性能非常强悍,目前在github获得超6000颗星,有纯文本、视频、图像等多个版本模型可使用。

在传统的注意力机制中,例如,Transformer架构中使用的自注意力,模型需要计算序列中每个元素对于其他所有元素的注意力得分,这就会面临两大难题–内存需求上升和计算复杂度。

LWM的核心技术是通过Ring Attention(环形注意力)在长序列上进行扩展训练,并使用Books3数据集从32000扩展到100万标记,而无需消耗额外的内存、算力并降低计算复杂度。尽管Ring Attention减少了每个片段的直接交互范围,但仍然允许信息在序列中传递,保持了模型对长距离依赖的捕捉能力,减少了长序列的处理损失度。这也是LWM能处理高达100万tokens数据的原因之一。

Ring Attention主要功能:

  • 环状分组:该模块将输入序列划分为多个环,每个环中的位置与其他环中的位置之间进行相关性计算。通过这种划分方式,可以有效降低计算复杂度。
  • 环内注意力:在每个环内,该模块计算位置之间的相关性,并根据相关性的权重对位置进行加权。这样,每个位置都可以获得来自同一环的其他位置的信息。
  • 环间注意力:这个模块负责计算不同环之间的相关性。通过将每个环的表示与其他环的表示进行比较,计算它们之间的相关性,这种跨环的交互有助于在不同环之间传递信息。
  • 环间投影:在环间注意力之后,该模块将每个环的表示投影到一个共享的表示空间中,有助于进一步整合不同环之间的信息。

通过这些关键模块的协同工作,Ring Attention实现了对长序列的高效处理和建模,并为训练大规模模型提供了高效方法。

行业动态

OpenAI推出“Meta-Prompting”,显著提升GPT-4等模型内容准确性

2024-2-27 8:40:59

行业动态

ChatGPT编程时代:GitHub Copilot Enterprise正式全面发布

2024-2-28 8:46:58

相关推荐