天工大模型登顶多模态榜单

近日，腾讯优图实验室联合厦门大学在新建的评测基准MME上首次对全球范围内MLLM模型进行了全面定量评测并公布了16个排行榜，包含感知、认知两个总榜单以及14个子榜单。昆仑万维天工大模型多模态团队的Skywork-MM模型位列综合榜单第一，其中，感知榜单排名第一、认知榜单排名第二。

综合榜单排名第一：

Skywork-MM模型

感知榜单排名第一：

Skywork-MM模型

认知榜单排名第二：

Skywork-MM模型

随着文本大模型的快速发展，构建具有多模态理解能力的多模态语言模型是行业大势所趋。多模态模型展现了较好的多模态信息理解能力，但依然存在一些问题，如现有的多模态语言模型存在较为严重的幻觉问题，对于大多数问题，模型都倾向于回答“yes”，同时，跨语言能力较弱，在中文场景中对问题的回答不尽如人意，有时甚至会直接回复英文。基于以上问题，昆仑万维天工大模型多模态团队给出了自己的解决方案——Skywork-MM。

在昆仑万维天工大模型多模态团队最新一篇论文中可知，在数据侧，为了解决幻觉问题，天工AI助手团队构造了更加多样和精细的微调数据，加强大模型对于图片特征的理解能力，增强多模态语言模型的指令跟随能力并减少“幻觉”，Skywork-MM在减少幻觉方面提升显著：

此外，Skywork-MM通过适当的数据构造，增强了中文的指令追随能力、中文相关场景的识别能力，减轻了文化偏差对于多模态理解的影响。

在模型侧，在模型设计上团队将视觉模型和大语言模型完全冻结，保持视觉模型在前置CLIP训练中学习到的视觉特征不损失，大语言模型的语言能力不损失。同时为了更好的关联视觉特征和语言特征，模型整体包含了一个可学习的视觉特征采样器和语言模型的LoRA适配器。

Skywork-MM模型的训练上，分为两个阶段，第一阶段使用双语的大规模图文pair数据进行图像概念和语言概念的关联学习;第二阶段使用多模态微调数据进行指令微调。最终，Skywork-MM实际上使用的图文数据并不多(约50M)，远远小于其他现有的MLLM使用的图文数据量(大于100M)，却在测评中取得了综合排名第一的优异成绩，证明了昆仑万维在训练多模态大模型方面找到了合适的技术路径，团队实力不俗。

未来，昆仑万维将加速提升多模态能力，将研究、研发与产品相结合，支撑旗下AI产品朝着多模态方向发展，如近期推出的天工AI搜索在具备良好的多模态能力后将助力用户获得颠覆式搜索体验。可以预见，多模态能力将助力昆仑万维在AGI与AIGC的研发、产品落地、商业化进程中获得领先业内的显著优势，在广告营销、游戏、娱乐、社交、咨询、办公、金融、能源等众多行业落地应用。