跳到主要内容

大模型推理系统

大模型推理系统关注如何在服务场景中高效执行 prefill、decode、缓存管理、批处理和调度。

包含内容

vLLM 是推理框架的一部分;PagedAttention 是 vLLM 的关键机制之一;KV Cache 是大模型推理的核心状态管理问题。它们不应该平铺到主栏目。

推荐学习路径

先理解 Transformer 推理中的 prefill 和 decode,再学习 KV Cache 和 batch 调度,最后进入 vLLM、PagedAttention 和 Speculative Decoding。

笔记模板

  • 服务目标。
  • 请求生命周期。
  • 状态管理。
  • 调度策略。
  • 显存使用。
  • 吞吐和延迟指标。

参考资料

vLLM 文档与论文、PagedAttention 论文、推理框架文档、LLM serving 系统论文。