跳到主要内容

FlashAttention

FlashAttention 通过分块和在线 softmax 减少显存读写，是 Attention Kernel 优化的重要代表。

核心问题

为什么标准 Attention 会产生大量 HBM 访问？
在线 softmax 如何避免保存完整注意力矩阵？
分块大小如何影响性能和数值稳定性？

笔记模板

算法动机。
分块策略。
在线归一化。
内存流量。
数值误差。
与标准 Attention 的对比。

核心问题
笔记模板