跳到主要内容

大模型推理系统

大模型推理系统关注如何在服务场景中高效执行 prefill、decode、缓存管理、批处理和调度。

包含内容

vLLM 是推理框架的一部分；PagedAttention 是 vLLM 的关键机制之一；KV Cache 是大模型推理的核心状态管理问题。它们不应该平铺到主栏目。

推荐学习路径

先理解 Transformer 推理中的 prefill 和 decode，再学习 KV Cache 和 batch 调度，最后进入 vLLM、PagedAttention 和 Speculative Decoding。

笔记模板

服务目标。
请求生命周期。
状态管理。
调度策略。
显存使用。
吞吐和延迟指标。

参考资料

vLLM 文档与论文、PagedAttention 论文、推理框架文档、LLM serving 系统论文。

包含内容
推荐学习路径
笔记模板
参考资料