近日,微软发布了生成式人工智能模型最新成员Phi-4,它在多个领域相较于前一代模型均有所改进,尤其在解决数学问题方面表现突出,这主要得益于训练数据质量的提升。
Phi-4是微软最新推出的小型语言模型,拥有140亿个参数。在GPQA研究生水平、MATH数学基准中,分别达到了56.1和80.4超过了GPT-4o,同时也超过了同类型的开源模型Qwen 2.5-14B和Llama-3.3-70B。在美国数学竞赛AMC的测试中,Phi-4达到了惊人的91.8分,再次超过了GeminiPro 1.5、GPT-4o、Claude 3.5 Sonnet、Qwen 2.5等知名开闭源模型,甚至整体性能可以与4050亿参数的Llama-3.1相媲美。
微软将Phi-4的性能提升归因于使用了“高质量合成数据集”以及来自人类生成内容的高质量数据集,并进行了未公开的训练后改进。
1、使用高质量合成数据
Phi-4使用了种子策划、多Agent提示、自我修订工作流、重写和增强以及指令反转等多种合成方法,有效解决了传统无监督数据集的缺点。
- 种子策划:合成数据生成的起点。Phi-4从多个领域提取高质量的数据种子,为合成数据生成打下坚实基础,使得能够创建针对模型训练目标的练习、讨论和推理任务。
- 多Agent提示:允许不同智能体之间进行交互对话,从而创造出更加多样化且贴近真实应用场景的交流场景。
- 自我修订工作流:鼓励模型参与到自身的编辑过程中,以此提高输出内容的质量和一致性。
- 指令反转:可以增加模型处理不同类型问题的能力,进一步增强了其灵活性和适应性。
2、创新训练方法
为了确保phi-4能在广泛的任务类型上表现出色,研究人员使用了一系列针对性创新训练方法,并根据实际需求调整各类数据的比例。尤其是针对长上下文理解能力的需求,phi-4增加了rope位置编码的基础频率至25万次,并相应地降低了最大学习率,以更好地适应更长的文本序列。
这种做法有效提升了模型对于复杂结构化信息的理解力,使其在面对需要综合分析多个段落甚至整篇文章的问题时也能游刃有余。phi-4还特别注重了不同类型数据之间的平衡,避免某类数据过多导致其他方面性能下降的情况发生。
在phi-4的后训练过程中,研究团队采用了两种形式的DPO数据对模型进行了强化训练。
- 基于人工标注的SFT数据:即由专家精心挑选并标记好的问答对。
- 自动构建的DPO对:通过搜索重要的转折点,将原始对话片段拆分成多个选项,并让模型从中选择最优解。
通过结合这两种方式,phi-4不仅学会了如何产生更符合预期的回答,还能够在不同情境下灵活调整语气和风格,从而提供更加个性化的交互体验。
此外,phi-4还引入了一些创新性的后训练方法,以增强其在特定领域内的表现。这种方法有效地解决了传统无监督数据集中常见的逻辑不严密等问题,使得phi-4在数学竞赛类题目上的准确率达到了惊人的80.4%,远超其他同类产品。