跳到主要内容

PagedAttention

PagedAttention 借鉴虚拟内存分页思想，把 KV Cache 拆成 block 进行管理，减少显存碎片并支持灵活调度。

核心问题

为什么连续 KV Cache 管理会浪费显存？
block table 如何映射逻辑 token 和物理 cache block？
这种设计如何影响 batch、swap 和调度？

笔记模板

问题背景。
数据结构。
访问流程。
显存收益。
性能开销。
边界情况。

核心问题
笔记模板