近期,DeepSeek正式开源了DSpark推理加速框架,在V4预览版的在线服务上跑了真实流量,把每个用户感受到的生成速度拉高了60%到85%。同时DeepSeek-V4正式版官宣定档7月中旬,也将受益于DSpark,推理速度大幅提升。
DSpark用半自回归结构和置信度调度两套机制,化解了推测解码长久以来的尾部衰减与算力浪费问题,在Qwen3和Gemma4多个目标模型上稳定超过Eagle3和DFlash。
DSpark的架构组成:

目标模型先产出锚点token D,DSpark用重型并行骨干加轻量序列头生成候选EFGH及置信度c1到c4,硬件感知调度器保留EFG并丢弃低置信度的H,目标模型并行校验保留的前缀,E和F接受,G被拒绝触发模型产出修正token G*,进入下一轮。
半自回归生成解决draft质量问题。并行骨干沿用DFlash,单次前向产出所有位置的base logits,块长γ再大也不影响延迟。再接一个轻量序列头注入块内token依赖。
置信度调度校验解决系统效率问题。硬件感知前缀调度器把校验长度选择形式化成全局吞吐最大化问题。
在Qwen3-4B、8B、14B上,DSpark相对Eagle3的宏平均接受长度分别提升30.9%、26.7%、30.0%,相对DFlash提升16.3%、18.4%、18.3%。Gemma4-12B上也保持稳定优势,增益跨模型族通用。

Table 1主推测解码结果。报告每解码轮的接受长度τ,越大越好。DSpark行在每个benchmark上均为最佳。表里还有个反直觉现象。并行drafter和半自回归drafter的接受长度往往比纯自回归drafter还高,跟“逐步自回归应该质量更好”的直觉相反。

Figure 2位置条件接受率结果表明,Qwen3-4B目标模型,按领域平均。自回归drafter(Eagle3)保持稳定或上升,并行drafter(DFlash)出现尾部衰减,DSpark全程稳定高位。
团队将DSpark和DeepSeek-V4-Flash(preview)以及DeepSeek-V4-Pro(preview)一起co-deployed。在维持相同总体吞吐量的情况下,相比前一代部署,DSpark将用户的生成速度分别提升了60%-85%(Flash)和57%-78%(Pro)。

Figure 7横轴是每请求生成速度tok/s/user,纵轴是单GPU总token吞吐。散点是真实用户流量采样,实线是拟合前沿。DSpark相对MTP-1把吞吐与交互性前沿整体外推。
V4-Flash引擎在80 tok/s/user的SLA下,DSpark把聚合吞吐拉高51%。在120 tok/s/user的更严SLA下,MTP-1已经接近运行边界,只能维持很小并发批,DSpark名义上拿到661%的吞吐优势。论文特别说明,那个点主要当作DSpark把可服务交互前沿外推的证据,不当成代表性的乘法加速。在可比的实用吞吐水平下,DSpark把每用户生成速度提升60%到85%。V4-Pro也是同样模式,35 tok/s/user SLA下吞吐提升52%,50 tok/s/user下MTP-1进入低并发区,DSpark拿到406%名义优势,等量系统容量下每用户生成速度提升57%到78%。

负载上升时,动态调度器自动收紧每请求校验长度防止资源争抢。
在V4-Flash并发低于200、V4-Pro并发低于150的常规区间,硬件感知调度器把每请求校验预算从MTP-1的静态2个token扩到约4到6个,每步接受更多token,前沿上的吞吐增益由此而来。
并发继续上升、target算力饱和后,调度器动态收紧预算,平均校验长度随负载平滑下降,低置信度draft token在吃掉关键batch容量前就被剪掉。轻载时把空闲算力榨干,重载时保住关键批容量,部署稳定。
团队也坦承局限。前缀调度器把target侧校验浪费压到最低,draft侧生成初始γ-token块的固定开销无法回收。对天生接受率低的复杂query,draft算力是沉没成本。未来方向是在draft模型里做难度感知的提前退出,让此类请求绕过整块生成。
与DSpark一并开源的,还有用于训练和评估推测解码算法的全栈代码库DeepSpec。DeepSpec训练仓库包含Eagle3、DFlash和DSpark三套drafter的训练代码。社区拿到以上资源,就可以复现和扩展。
值得一提的是,DeepSeek V4正式版7月中旬即将上线,引入峰谷定价机制,高峰时段(北京时间每日9:00~12:00,14:00~18:00)价格翻倍。










































