跳到主要内容

算子与内核优化

算子优化关注 kernel 级别、访存、并行度、tiling、fusion、profiling,是连接模型数学和硬件性能的关键层。

包含内容

推荐学习路径

先从 GEMM 理解 tiling、shared memory 和寄存器复用,再进入 Attention Kernel 和 FlashAttention,最后学习 fusion 和 profiling。

笔记模板

  • 算子数学定义。
  • 输入输出形状。
  • 访存模式。
  • 并行映射。
  • 性能指标。
  • profiler 结果。

参考资料

CUDA 文档、CUTLASS、FlashAttention 论文和实现、Nsight Compute、Triton 教程。