DeepSeek开源了DSpark推理加速框架 V4正式版即将上线

近期，DeepSeek正式开源了DSpark推理加速框架，在V4预览版的在线服务上跑了真实流量，把每个用户感受到的生成速度拉高了60%到85%。同时DeepSeek-V4正式版官宣定档7月中旬，也将受益于DSpark，推理速度大幅提升。

DSpark用半自回归结构和置信度调度两套机制，化解了推测解码长久以来的尾部衰减与算力浪费问题，在Qwen3和Gemma4多个目标模型上稳定超过Eagle3和DFlash。

DSpark的架构组成：

DeepSeek

目标模型先产出锚点token D，DSpark用重型并行骨干加轻量序列头生成候选EFGH及置信度c1到c4，硬件感知调度器保留EFG并丢弃低置信度的H，目标模型并行校验保留的前缀，E和F接受，G被拒绝触发模型产出修正token G*，进入下一轮。

半自回归生成解决draft质量问题。并行骨干沿用DFlash，单次前向产出所有位置的base logits，块长γ再大也不影响延迟。再接一个轻量序列头注入块内token依赖。

置信度调度校验解决系统效率问题。硬件感知前缀调度器把校验长度选择形式化成全局吞吐最大化问题。

在Qwen3-4B、8B、14B上，DSpark相对Eagle3的宏平均接受长度分别提升30.9%、26.7%、30.0%，相对DFlash提升16.3%、18.4%、18.3%。Gemma4-12B上也保持稳定优势，增益跨模型族通用。

DeepSeek

Table 1主推测解码结果。报告每解码轮的接受长度τ，越大越好。DSpark行在每个benchmark上均为最佳。表里还有个反直觉现象。并行drafter和半自回归drafter的接受长度往往比纯自回归drafter还高，跟“逐步自回归应该质量更好”的直觉相反。

DeepSeek

Figure 2位置条件接受率结果表明，Qwen3-4B目标模型，按领域平均。自回归drafter(Eagle3)保持稳定或上升，并行drafter(DFlash)出现尾部衰减，DSpark全程稳定高位。

团队将DSpark和DeepSeek-V4-Flash(preview)以及DeepSeek-V4-Pro(preview)一起co-deployed。在维持相同总体吞吐量的情况下，相比前一代部署，DSpark将用户的生成速度分别提升了60%-85%（Flash）和57%-78%（Pro）。

DeepSeek

Figure 7横轴是每请求生成速度tok/s/user，纵轴是单GPU总token吞吐。散点是真实用户流量采样，实线是拟合前沿。DSpark相对MTP-1把吞吐与交互性前沿整体外推。

V4-Flash引擎在80 tok/s/user的SLA下，DSpark把聚合吞吐拉高51%。在120 tok/s/user的更严SLA下，MTP-1已经接近运行边界，只能维持很小并发批，DSpark名义上拿到661%的吞吐优势。论文特别说明，那个点主要当作DSpark把可服务交互前沿外推的证据，不当成代表性的乘法加速。在可比的实用吞吐水平下，DSpark把每用户生成速度提升60%到85%。V4-Pro也是同样模式，35 tok/s/user SLA下吞吐提升52%，50 tok/s/user下MTP-1进入低并发区，DSpark拿到406%名义优势，等量系统容量下每用户生成速度提升57%到78%。

DeepSeek