阿里开源创新大模型搜索引擎ZeroSearch

从互联网电商公司到AI科技巨头，阿里云带着整个阿里巴巴集团在身价重估的路上狂奔。最近，阿里巴巴开源创新大模型搜索引擎ZeroSearch，无需真实交互即可激发模型搜索能力，在7大数据集评测中性能超越谷歌搜索，成本降低80%。

ZeroSearch

ZeroSearch大模型搜索引擎是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。主要利用了大模型在大规模预训练过程中积累的丰富知识，将其转化为一个检索模块，能够根据搜索查询生成相关内容。同时，还可以动态控制生成内容的质量，这是传统搜索引擎所不具备的特殊功能。

在NQ、TriviaQA等7大问答数据集评测中，其性能超谷歌搜索，如70亿参数监督微调模型使用后搜索能力达33.06，140亿参数模型达33.97，超谷歌的32.47。

研究人员通过SerpAPI使用谷歌搜索进行约64,000次搜索查询的训练，成本约为586.70美元（IT之家注：现汇率约合4238元人民币）；而在四个A100GPU上使用140亿参数的大模型进行模拟时，成本仅为70.80美元（现汇率约合511元人民币），意味着成本降低了87.93%以上。

随着DeepSeek-R1、o1等模型的出现，强化学习成为了一项改变模型逻辑推理能力的关键技术。这些模型完全依赖于奖励驱动的学习，而无需明确的逐步监督。因此，有不少研究将强化学习应用在大模型搜索中。例如，Search-R1通过强化学习自主生成多个搜索查询，而ReSearch则通过强化学习教授模型通过搜索进行推理，无需对中间推理步骤进行监督。但这些方法需要与谷歌等商业搜索引擎搭配使用才能达到最佳效果，成本方面非常高。

ZeroSearch大模型搜索引擎通过强化学习激励大模型的搜索能力，同时避免了与真实搜索引擎交互带来的高昂成本和不可控性。它通过轻量级监督微调将大模型转化为一个检索模块。这一过程利用了大模型在大规模预训练中积累的丰富知识，使其能够根据给定的查询生成相关或噪声文档。通过调整提示中的关键词，模型可以灵活地控制生成文档的质量，从而为后续的训练提供多样化的检索场景。

这种能力是通过收集与真实搜索引擎交互的轨迹数据，并对这些数据进行标注和微调来实现的。主要是让大模型与真实搜索引擎展开多轮交互，直至得出最终答案。

在此过程中，详细记录下所有交互轨迹，这些轨迹涵盖了从模型发起查询，到搜索引擎返回文档，以及模型据此生成最终答案的全过程。接着，对这些交互轨迹进行细致标注，将能产生正确答案的交互轨迹标记为正样本，意味着其中检索到的文档发挥了积极作用；而导致错误答案的交互轨迹则归为负样本，表明对应的检索文档属于干扰信息。

从正样本和负样本交互轨迹中精准提取查询-文档对，以此为基础对大模型实施轻量级监督微调。微调时，研究人员巧妙调整提示中的少量词汇，例如，加入“有用信息”“噪声信息”等，引导大模型学习生成不同质量的文档。同时，将输入问题及其对应的答案融入提示内容，拓宽大模型的知识边界。

此外，ZeroSearch还通过引入“课程学习机制”，用于在训练过程中逐步调整生成文档的质量。其核心思想是，随着训练的进行，逐渐增加任务的难度，使模型从简单的检索场景开始，逐步适应更具挑战性的环境。通过一个概率函数动态调整生成噪声文档的可能性。在训练初期，模型主要接触高质量的文档，以便快速学习基本的输出格式和任务要求。随着训练的深入，模型逐渐暴露于更多噪声文档，这迫使模型不断提升其推理能力和鲁棒性，以应对更具挑战性的检索任务。

在强化学习的框架下，ZeroSearch采用了多种算法来优化模型的搜索策略。这些算法包括近端策略优化、组相对策略优化等，通过最大化策略模型的期望奖励来训练模型，同时考虑参考模型和奖励函数。奖励函数的设计专注于答案的准确性，采用基于F1分数的奖励机制，以平衡精确度和召回率。此外，为了提高训练的稳定性，ZeroSearch还引入了损失掩蔽机制，确保梯度仅针对模型自身的输出进行计算，从而避免了由于外部生成的文档标记引入的噪声。