最近,Predibase发布全球首个端到端强化微调平台RFT并开源,支持无服务器和端到端训练方法。与传统的监督式微调相比,RFT不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续的强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台全部完成。
简而言之,用户只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。
为了展示RFT的强大,Predibase基于阿里Qwen2.5-Coder-32B-instruct微调了一个专门用于将PyTorch代码翻译为Triton的模型Predibase-T2T-32B-RFT,并根据其他更大的基础模型(包括DeepSeek-R1、Claude 3.7 Sonnet和OpenAI o1)对内核正确性进行了基准测试。
与传统的监督式微调方法不同,Predibase-T2T-32B-RFT利用RFT以交互方式调整模型行为,以最少的标记数据优化下游任务质量。这使其成为专有LLM的高性价比、高性能替代方案。
通过RFT,Predibase在训练过程结合了冷启动监督式微调、强化学习和课程学习,并且只使用了十几个标记数据点。
在Kernelbench数据集上进行的基准测试显示,Qwen2.5-Coder-32B-instruct经过强化后,其正确率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上,而模型占用的空间却小了一个数量级。
目前,Predibase已经开源了微调后的Qwen2.5-Coder-32B-instruct模型。
RFT优势:
在技术方面,RFT不依赖大量标注数据,而是通过奖励函数来引导模型学习,无需大量标注数据,奖励函数可根据任务的特定需求评估模型输出,来引导模型的优化目标。
RFT的适应性与灵活性更强,允许用户根据具体任务需求自定义奖励函数,灵活定义模型优化目标。
RFT具备持续改进能力,支持持续改进,随着奖励函数优化和更多反馈数据积累,模型能不断学习和改进,适应任务需求变化。
在训练与推理效率方面,RFT平台是完全托管的无服务器平台,用户无需管理底层服务器或基础设施,平台自动处理训练、部署和推理全过程,大大降低了开发和运维复杂性。此外,RFT利用多LoRA框架和流式微批处理技术,实现了高效的训练和推理。
RFT还支持复杂任务的课程学习,即从简单到复杂逐步训练模型,使其能处理更复杂任务,这在需要深度推理的任务中特别有效。
在模型部署方面,Predibase的推理引擎原生支持RFT训练的模型,并提供高性能的无服务器部署解决方案,用户可将训练好的模型快速部署到生产环境中,并获得行业级服务水平支持。
RFT还具备更好的泛化能力,通过奖励函数引导模型学习,使模型能更好地泛化到未见过的数据上,提升其在实际应用中的鲁棒性。
Predibase表示,DeepSeek在开源R1之后,在全球AI领域产生了巨大影响,让很多人意识到强化学习微调对训练大模型的重要性。受此启发,他们开发了这个端到端无服务器强化微调平台。