月之暗面开源并升级多模态大模型Kimi-2506

行业动态
2025年6月23日
0
编辑

最近，月之暗面对其开源的多模态模型Kimi-VL-A3B-Thinking进行了大升级，发布了2506版本，该版本的发布标志着智能体和视觉理解技术的重大进步。

Kimi

在多模态推理基准测试中，Kimi-VL-A3B-Thinking-2506取得了更好的准确性：MathVision上达到56.9（提升20.1），MathVista上为80.1（提升8.4），MMMU-Pro上是46.3（提升3.2），MMMU上为64.0（提升2.1），同时平均所需的思考长度减少了20%。

根据月之暗面之前公布的技术报告显示，Kimi-VL-A3B-Thinking是一个多模态专家混合模型，主要由MoonViT、MLP投影器、专家混合模型三大块组成。

MoonViT：即原生分辨率视觉编码器，可直接处理不同分辨率的图像，无需借助复杂的子图像分割和拼接操作。
MLP投影器：采用了双层架构，在视觉编码器和语言模型之间起到了至关重要的桥梁作用。
专家混合模型：基于Moonlight模型，这是一种28亿激活参数、160亿总参数的专家混合模型。其架构与DeepSeek-V3相似，从Moonlight的预训练阶段的一个中间检查点初始化，这个中间检查点已经处理了5.2万亿纯文本数据标记，并激活了8192个标记的上下文长度。

此次开源并升级多模态大模型Kimi-2506，下文对该版本在性能、视觉理解能力、分辨率、应用领域、视频理解等多个方面进行了介绍：

1、性能方面：Kimi-VL-A3B-Thinking-2506实现了更聪明且更省token的突破。

2、视觉理解能力方面：不同于前一版本专注于思考任务，2506版本在常规视觉感知与理解任务上也达到了同等甚至更好的能力，真正做到了“边思考边看得更清晰”。

3、分辨率方面：2506版本实现了更高分辨率的支持，支持单张图像320万总像素（1792x1792），是前一版本的4倍。

4、使用方面：2506版本在图像理解、图表推理、数学计算、OS智能体接地、长PDF理解和视频分析等多个领域都有出色表现，并且支持特定回答模式和思考链。

5、视频理解方面：2506版本将视频精准拆分为多个场景并详细描述。

此外，Kimi-VL-A3B-Thinking-2506在OS智能体接地任务中，精准定位并点击界面元素；在长PDF理解时，深入分析文档内容得出基准测试中的最先进模型及其性能。

相关推荐：《六大国产大模型深度对比》

OpenAI开源最新客户服务AI Agent

2025-6-20 16:36:33

Alist完美平替Openlist上线

2025-6-23 18:16:36

相关推荐

TOP1

野草云美国VPS适合外贸站和AI工具吗
15小时前
TOP2

免备案香港服务器选莱卡云CN2 GIA合适吗
18小时前
TOP3

UCloud静态住宅IP云主机怎么选
18小时前
DeepSeek开源了DSpark推理加速框架 V4正式版即将上线
18小时前
恒创科技美国云服务器适合外贸独立站吗
2026年6月29日
阿里云和腾讯云轻量应用服务器怎么选
2026年6月29日