跳到主要内容

Speculative Decoding

Speculative Decoding 使用较小的 draft model 提前生成候选 token，再由目标模型验证，以减少 decode 阶段延迟。

核心问题

draft model 的接受率如何影响收益？
验证过程如何保持分布一致？
这种方法对显存、调度和系统复杂度有什么影响？

笔记模板

方法动机。
draft model。
验证算法。
接受率。
性能收益。
适用边界。

核心问题
笔记模板