近日阿里云开源通义千问Qwen3新思考模型-Qwen3-30B-A3B-Thinking-2507,它在Agent智能体、AIME25数学、LiveCodeBench编程、GPQA解决复杂能力等方面性能全部实现大幅度提升。
阿里云官网:点击进入
通义千问Qwen3-30B-A3B-Thinking-2507是基于Qwen3的思考模式开源模型,相较上一版本(通义千问3-30B-A3B)复杂推理类任务性能优秀,包括逻辑推理、数学、科学、代码类等具有一定难度的任务场景,指令遵循、文本理解、多语言翻译等能力显著提高。
通义千问Qwen3-30B-A3B-Thinking-2507总参数量达到305亿,其中激活的参数量为33亿,非嵌入参数量为299亿。该模型包含48层,采用Grouped Query Attention机制,Q的注意力头数为32,KV的注意力头数为4。此外,它还具备128个专家,其中激活的专家数量为8。原生支持256K上下文,但通过扩展可增加至100万。
通义千问Qwen3-30B-A3B-Thinking-2507在在多个任务上都有出色表现。
性能:Qwen3-30B-A3B-Thinking-2507在知识类的MMLU-Pro任务中得分为80.9、MMLU-Redux为91.4、GPQA为73.4、SuperGPQA为56.8;在推理类的AIME25任务中得分为85.0、HMMT25为71.4、LiveBench 20241125为76.8,相比其他模型来说它的表现非常出色。
编码类:在LiveCodeBench v6(25.02-25.05)任务中得分为66.0、CFEval为2044、OJBench为25.1;在对齐类的IFEval任务中得分为88.9、Arena-Hard v2为56.0、Creative Writing v3为84.4、WritingBench为85.0。
Agent智能体类:在BFCL-v3任务中得分为72.4、TAU1-Retail为67.8、TAU1-Airline为48.0、TAU2-Retail为58.8、TAU2-Airline为58.0、TAU2-Telecom为26.3。
多语言类:在MultiIF任务中得分为76.4、MMLU-ProX为76.4、INCLUDE为74.4、PolyMATH为52.6。
Qwen3-30B-A3B-Thinking-2507在工具调用能力方面表现出色,推荐使用Qwen-Agent来充分发挥其代理能力,Qwen-Agent内部封装了工具调用模板和工具调用解析器,大大降低了编码复杂性。可以通过MCP配置文件、Qwen-Agent的集成工具或自行集成其他工具来定义可用工具。