跳到主要内容

算子融合

算子融合通过减少中间结果落盘和 kernel launch 开销提升性能。

核心问题

  • 哪些算子适合融合?
  • fusion 会如何改变访存、并行度和寄存器压力?
  • 融合后是否影响可维护性和数值行为?

笔记模板

  • 原始计算图。
  • 融合后的计算图。
  • 中间张量变化。
  • 访存变化。
  • 性能收益。
  • 风险与边界条件。