月之暗面开源并升级多模态大模型Kimi-2506

最近,月之暗面对其开源的多模态模型Kimi-VL-A3B-Thinking进行了大升级,发布了2506版本,该版本的发布标志着智能体和视觉理解技术的重大进步。

Kimi

在多模态推理基准测试中,Kimi-VL-A3B-Thinking-2506取得了更好的准确性:MathVision上达到56.9(提升20.1),MathVista上为80.1(提升8.4),MMMU-Pro上是46.3(提升3.2),MMMU上为64.0(提升2.1),同时平均所需的思考长度减少了20%。

根据月之暗面之前公布的技术报告显示,Kimi-VL-A3B-Thinking是一个多模态专家混合模型,主要由MoonViT、MLP投影器、专家混合模型三大块组成。

  • MoonViT:即原生分辨率视觉编码器,可直接处理不同分辨率的图像,无需借助复杂的子图像分割和拼接操作。
  • MLP投影器:采用了双层架构,在视觉编码器和语言模型之间起到了至关重要的桥梁作用。
  • 专家混合模型:基于Moonlight模型,这是一种28亿激活参数、160亿总参数的专家混合模型。其架构与DeepSeek-V3相似,从Moonlight的预训练阶段的一个中间检查点初始化,这个中间检查点已经处理了5.2万亿纯文本数据标记,并激活了8192个标记的上下文长度。

此次开源并升级多模态大模型Kimi-2506,下文对该版本在性能、视觉理解能力、分辨率、应用领域、视频理解等多个方面进行了介绍:

1、性能方面:Kimi-VL-A3B-Thinking-2506实现了更聪明且更省token的突破。

2、视觉理解能力方面:不同于前一版本专注于思考任务,2506版本在常规视觉感知与理解任务上也达到了同等甚至更好的能力,真正做到了“边思考边看得更清晰”。

3、分辨率方面:2506版本实现了更高分辨率的支持,支持单张图像320万总像素(1792x1792),是前一版本的4倍。

4、使用方面:2506版本在图像理解、图表推理、数学计算、OS智能体接地、长PDF理解和视频分析等多个领域都有出色表现,并且支持特定回答模式和思考链。

5、视频理解方面:2506版本将视频精准拆分为多个场景并详细描述。

此外,Kimi-VL-A3B-Thinking-2506在OS智能体接地任务中,精准定位并点击界面元素;在长PDF理解时,深入分析文档内容得出基准测试中的最先进模型及其性能。

相关推荐:《六大国产大模型深度对比

行业动态

OpenAI开源最新客户服务AI Agent

2025-6-20 16:36:33

使用教程

阿里云服务器续费降配

2022-10-28 11:26:33

相关推荐